Sunteți pe pagina 1din 25

1.

Analiza corespondentelor

- Este echivalentul ACP, dar pt variabile categoriale


- Pot determina legatura dintre variabilele categoriale prin: construirea profilurilor
rand/coloana, prin testul chi patrat sau cu ajutorul intertiei
- La ACP, aveam matrice de corelatie; La AC avem table de contingenta
- Tabelul de contingenta contine frecvente absolute sau relative
- Frecvente absolute = nr de obiecte care se incadreaza intr-o anumita pereche de
categorii
- Ideea de baza a analizei coresp: sa identificam relatiile dintre variabile prin compararea
cu un tabel care ar exista in situatia in care categoriile ar fi independente
- Inertia = varianta totala; distanta fata de valorile asteptate, masura a distantei cumulate
- Scop Analiza Coresp: construirea unui numar cat mai mic de axe cu ajutorul carora sa se
poata identifica si ilustra asocierile dintre diferite categorii
- Inertia se obtine pe baza tabelului de contingenta cu ajutor lui chi patrat
- Chi patrat = testeaza semnificatia asocierii dintre categoriile reprezentate pe linii si
coloane
- Tabel cu dimensiunea r linii, c coloane => r* c => pot sa am maxim minimul dintre r-1 si
c-1;
- Ex: tabel cu 3 linii si 3 coloane => pot sa am max 2 dimensiuni
- In analiza se pastreaza un nr de k dimensiuni care retin 80-90% din inertia totala
- Elementele tabelului de contigenta se obtin prin impartirea lui nij la n; unde nij =
frecventele; n = volumul total al esantionului
- Df = degrees of freedom = (nr linii – 1) * (nr coloane- 1)
- P-value < 0.05 => respingem ipoteza nula
- Valorile observate = frecventele din tabelul de contingenta; valorile asteptate =
frecventele asteptate in ipoteza de independenta (omogenitate)

Pasi Analiza Coresp:


1. Se det volumul esantionului = n
2. Se scrie matricea initiala a frecventelor unde elementele sunt notate cu nij; I = nr de
categorii pt o variabila; J = nr de categorii pt cealalta variabila
3. Se construieste tabelul de contingenta cu frecvente relative unde fiecare element = nij/n
4. Se calculeaza masele din tabelul de contingenta sau profilurile medii pe fiecare
Linie/coloana
5. Se foloseste testul chi patrat; ipoteza nula = cele doua variabile categoriale analizate
sunt independente
6. Principiul testului chi patrat: compara frecventele observate cu frecventele teoretice;
frecventele observate sunt cele effective; frecventele teoeretice sunt frecventele care s-
ar obtine daca se considera ca nu exista nicio asociere intre variabile
7. Se det intertia totala = masura variatiei din date; determina existenta diferentelor
semnificative intre categ reprezentate de linii si cele de pe coloana
In exemplul din curs:
- Pe linii sunt scorurile acordate afirmatiei
- Pe coloane sunt tarile respondentilor
- Frecventele relative sunt calculate ca nij/n; de ex: 230/776 * 100 = 29.63
De retinut:

- cu cât punctele sunt mai apropiate cu atât există o similitudine mai ridicată între
categoriile respective ale rândului (coloanei);
- Situarea față de centrul graficului – apropierea punctelor de centrul graficului
sugerează prezența unui profil asemănător cu cel mediu, iar plasarea lor la depărtare
de acesta indică manifestarea unor particularități specifice categoriei respective.

In aceasta figura este reprezentata proiectia punctelor in spatiul bidimensional. Cele doua
dimensiuni explica 23.4 + 72.2 = 95.6% din cantitatea de informatie.

Astfel, se observa o apropiere pe graphic a respondetilor din Rusia de scorul 1 acordat


afirmatiei analizate. Se poate deduce ca respondetii din Rusia nu sunt de acord cu afirmatia ca
acestia sunt mandri de tara din care provin in urma obtinerii unor performante sportive.
Respondentii din UK si SUA sunt corelati cu scorul 2 acordat afirmatiei analizate. Cei care au
acordat un scor de 4 sunt majoritari din Spania. Respondetii din Franta se apropie cel maim ult
de categoria respondetilor care au oferit scorul 3. Respondetii care au oferit scorul de 5 nu se
afla in regiunile considerate in analiza, deci din tarile analizate nu exista respondeti care sa fie
total de acord cu acea afirmatie.

- Scorul de 5 se afla cel mai departe fata de profilul mediu

Contrib = contributia variabilei la formarea dimensiunii

Cos 2 = calitatea reprezentarii

- Primele doua dimensiuni explica 95.6 % din inertia totala, deci putem spune ca primele
2 dimensiuni sunt suficiente pentru stocarea informatiei.

- Pe coloana value sunt valorile proprii ale fiecarei dimensiuni => inertia fiecarei
dimensiuni

- Procentul de inertie retinut de fiecare dimensiune = inertia dimensiunii/ total inertie *


100
- Principiul din spatele calculului inertiei: compar val observata cu val teoretica; val
theoretica = cat as fi observat acolo daca variabilele ar fi fost necorelate;

- Cor = corelatia cu fiecare dimensiune; De exemplu, pentru categoria cu scorul 1,


corelatia cu prima axa este de 0.99, iar corelatia cu a doua axa este de 0.1. Deci acest
scor de 1 este mai puternic corelat cu prima axa

- Dintre toate scorurile oferite afirmatiei, cel mai puternic corelat cu prima axa este scorul
de 1, iar cu a doua axa, scorul 5

- Dintre toate tarile, cea mai puternic corelata cu prima axa este Rusia, iar cel mai mult
corelata cu a doua axa este Franta

- Ctr => La explicarea inertiei primei axe, cel maim ult contribuie scorul de 1 acordat de
respondentia din Rusia (ctr = 0.597 si ctr = 0.698). Prima dimensiune = scor de 1 si
respondenti din Rusia

- La explicarea inertiei celei de-a doua axe, cel mai mult contribuie scorul de 5 acordat de
cei din Franta; A doua dimensiune = socr de 5 si respondenti din Franta

- QLT ne ofera o masura a calitatii reprezentarii punctului pe harta corespondentelor; qlt


sa fie cat mai aproape de 1; cea mai mica val este pt SUA 0.221

- Cor – contributia relativa; ctr = contributia absoluta

- MASS- in ce proportie reflecta media- procentul din frecventa totala a unei anumite
categorii a unei variabile din setul de date. Reprez ponderea sau importanta acelei
categorii in analiza generala

TEIA:
Avem o valoare a inertiei totale = 0.282
Scopul analizei corespondentelor este reducerea dimensionalitatii. Inertia este o masura a
variatei, a informatiei in datele noastre.
Inertia totala se calculeaza pornind de la o matrice de contingenta, iar pentru a ajunge la acea
valoare trebuie sa comparam valoarea observata cu o valoare teoretica. Valoarea teoretica ne
arata cat as fi observat acolo daca variabilele noastre erau independente.
- toate valorile care apar in outputul cu rows si columns sunt de fapt cu 0 virgula, se impart
la 1000. De ex, mass = 353 e de fapt 0.353.
Exemplu din viata reala:

- Vrem sa vedem asocierea dintre domeniile de activitate ale salariatilor si


macroregiunile Romaniei
- Se doreste a se vedea daca exista legaturi intre tipul unitatilor sanitare si
macroregiunile din Romania.

2. Regresie logistica

- Scop: estimarea probabilitatii ca o variabila calitativa sa faca parte dintr-o anumita


categorie, in functie de alte variabile ; are scop de clasificare
- Metoda verosimilitatii maxime este o metoda utilizata pentru estimarea parametrilor
modelului LOGIT utilizat in regresia logistica.

Interpretarea parametrilor

- Model de regresie logistica: variabila dependenta (decizia de a devenit antreprenor) e


explicata in functie de urmatoarele variabile independente: genderFemale (var
categoriala), age, w2, w3, suskillYes (var categoriala)

- Variabilele cuprinse in analiza au coeficienti semnificativi dpdv statistic: intercept, age,


w2, suskillYes
- Categoria de baza = suskillNo => sansele ca o persoana sa devina antreprenor sunt mai
mari pentru persoanele care cosnidera ca au abolitatile necesare fata de persoanele
care nu cred ca au abilitatile necesare

- Categoria de baza = Female => sansele ca o persoana sa devina antreprenor sunt mai
mici in cazul femeilor decat in cazul barbatilor

- Categoria de baza = w1 = Persoane angajate => sansele sunt mai mari la persoanele in
cautare de loc de munca fata de cele angajate (pt ca am 0.80); sansele sunt mai mici, dar
nu semnificativ, la persoanele inactive fata de cele angahate (-0.14).

Bonitatea modelului

- Null deviance = se compara modelul nul (contine doar termenul liber) cu modelul
complet (contine cate un parametru pt fiecare observatie). Devianta nula indica cat de
bun este raspunsul prognozat de un model in care apare numai termenul liber.
- Residual deviance = se compara modelul curent cu modelul complet. Devianta reziduala
indica cat de bun este raspunsul prognozat de un model in care se adauga variabilele
independente.
- Daca devianta residuala e mai mica decat cea nula, se allege modelul current.
- AIC reprezinta criteriul informational AKAIKE care se foloseste pt a compara diverse
modele, alegandu-se modellul cu valoarea cea mai mica.
- Valori mai mici => un mode mai bun

-
- Calculez R patrat, care arata bonitatea modelului, deci in ce masura variabila
dependenta este explicate de variabilele independente din modelul analizat

- R patrat = 10 % => exista alti multi factori care determina sansele ca o persoana sa
devina antreprenor

- Impactul variabilelor independente asupra variabilei dependente se calculeaza folosind


functia exponentiala asupra coeficientilor modelului de regresie binomiala.
TEIA:
- Acest output se leaga de regresia logistica. Poate aprea si la analiza conjoint.
- Ca sa estimez impactul asupra probabilitatii de aparitie a unei clasei, trebuie sa calculez
exp (functie exponentiala) ca sa vad cat de mult influenteaza o variabila.
- La cele care sunt categoriale, intotdeauna fac comparatia cu un nivel de baza: de ex
variabila gender: coef este pentru Female => acest coef -0.2412 imi arata efectul
comparat cu categoria de baza; cu cat cresc/scad sansele femeilor de a devein
antreprenori comparative cu barbatii.
EXEMPLU:
Sansele ca un pasager sa supravietuiasca la un accident pe vas in functie de varsta, gen, clasa la
care calatoreste, nr de personae cu care calatoreste.

Aici intepretez cu 1- ca sa determin procentele!

- 1-0.7856 = 21,44%. Sansele de a porni o afacere sunt mai mari cu 21,44% la barbati
decat la femei sau sunt mai mici cu 21,44% la femei decat la barbati

- 1-0.9719 = 2,81% => Sansele de a porni o afacere scad cu 2,81% cand persoana
inainteaza in varsta cu un an=> daca e pozitiv y scade cand x creste; daca e negativ y
creste cand x creste

- 1-5.194 = -410% => Sansele de a porni o afacere sunt cu 410% mai mici pentru
persoanele care nu considera ca au aptitudini fata de cele care considera ca au
aptitudini.

- 1-2.2294103 = -123 % => Sansele de a porni o afacere sunt cu 123% mai mari la
persoanele in cautare de loc de munca fata de persoanele angajate

- 1-0.8652201 = 13.47% => Sansele de a porni o afacere sunt cu 13.47 % mai mici la
persoanele inactive fata de persoanele angajate.

Curba ROC
- Prag de probabilitate peste care un individ este clasificat in clasa 1
- De obicei, avem prag de probabilitate de 0.5
- Se stabilieste un prag de semnificatie de la care putem considera ca o observatie se
incadreaza in clasa 1 (clasa pozitiva)

- In acest caz, consideram pragul de semnificatie de o probabilitate de 0.5

- True positive rate = predictia e adevarata, valoarea e pozitiva - senzitivitatea

- False positive rate = predictia e incorecta, valoarea e pozitiva – specificitatea

- Model ideal = curba roc e cat mai aproape de coltul din stanga sus

- Aria de sub curba ROC ne arata performanta unui clasificator

- Cu cat AUC este mai mare cu atat performanta discriminativa a testului este mai buna

- AUC inte 0.5-0.7 – acuratete redusa ; 0.7-0.9 – moderata; peste 0.9 – ridicata

- Când e mai mică, trebuie redus din overfitting

TEIA:
- Curba ROC se construieste pentru orice clasificator. Are pe abscisa false positive rate si
pe ordonata true prositive rate. Culoarea imi da valoarea thresholdului. Thresholdul
reprezinta care este pragul de la care clasific unitatile in categ 1, respectiv in categ 2.
- Ni se poate cere sa evaluam un clasificator pe baza curbei ROC: Atunci trebuie sa
analizam aria de sub curba ROC, care trebuie sa fie cat mai mare.
- In graficul din ex, clasificatorul depaseste performantele unui clasificator
aleator(deoarece este peste diagonala), nu este un clasificator foarte bun.
- Un prag de 0.5 mi-ar aduce un false positive rate de 0, dar si un true positive rate foarte
mic, deci nu ma ajuta 0.5 in acest context.
Aria de sub curba ROC este de aproximativ 70% indicând faptul că am obţinut un clasificator
mai bun decât un clasificator aleator. O valoare a pragului probabilităţii de 0.5 ar conduce la o
rată foarte mică a clasificării pozitive false (indivizii care în realitate nu au demarat o afacere nu
vor fi clasificaţi prin model ca potenţiali antreprenori). Dar în acelaşi timp rata clasificării
pozitive corecte este extreme de redusă (cei care doresc să devină antreprenori nu sunt incluşi
conform modelului în clasa 1). Pentru că ne dorim o rată redusă a clasificării incorecte în clasa
1(potenţiali antreprenori care depun eforturi în vederea dezvoltării unei afaceri) şi o rată cât
mai mare a clasificării corecte în clasa 1, ne-ar interesa sa identificăm un punct pe curba ROC în
poziţia Nord-Vest. Din păcate clasificatorul nostru nu oferă astfel de soluţi
Interpretarea matricei de confuzie.
- In functie de domeniul in care lucrez, false positive rate poate sa fie mai grav false
negative rate. clasificarile gresite de un anumit soi pot fi mai costisitoare sau mai grave
fata de alte domenii. E mai grav sa clasific fals positive decat fals negative in medicina.

Matrice de confuzie:

Prognozat negativ Prognozat pozitiv


Real negative TRUE NEGATIVE FALSE POSITIVE
Real positive FALSE NEGATIVE TRUE POSITIVE

- Matricea de confuzie sintetizeaza performanta unui clasificator


- Diagonala principala arata clasificarile corecte

Clasificator = un model care explica apartenenta obiectelor la clase


- Rata celor clasificati pozitiv in mod eronat: FP/N
- Rata celor clasificati correct pozitiv: TP/P
- Senzitivitate = TP/P; valoare mica => modelul nu reuseste sa identifice correct obiectele
pozitive
- Specificitate = procentul celor din clasa Negativ identificati correct; TN/N = 1-FP/N
- Precizie = TP/P estimate
- Acuratete = TP + TN / TP + TN + FP + FN
- Scorul F1:

Clase dezechilibrate

- SMOTE = Syntethic Minority Oversampling Technique


- Metoda de tartare a claselor dezechilibrate care consta in crearea unor observatii
sintetice in clasa minoritara, utilizand metoda celor mai apropiati vecini
- SMOTE creste senzitivitatea, dar scade precizia modelelor
- SMOTE-N este un algoritm modificat special pt variabile categoriale

Pași

- Se extrage aleator un eșantion din clasa minoritară

- Pentru observațiile extrase la pasul anterior, se identifică cei mai apropiați k vecini
- Pentru unul dintre acești vecini, se calculează vectorul diferență dintre unitatea originală și
acesta

- Se multiplică acel vector cu o valoare în intervalul [0,1]

- Observația sintetică se obține adăugând vectorul de la pasul anterior la vectorul initial

Exemplu real de utilizare a regresiei logistice:

- Previzionarea daca un email este spam sau nu


- Predictia daca un anumit client va cumpara sau nu un anumit produs
- Predictia daca o persoana va fi infectata cu COVID sau nu

3. Arbori de clasificare

- Ideal este ca nodurile terminale sa fie noduri pure, in care toate obiectele au aceeasi
apartenenta (aceeasi eticheta)
- Pentru a cuantifica impuritatea unui nod, se foloseste entropia sau indicele Gini
- Impuritatea unui nod este 0 daca formele din nodul resp apartin aceleiasi clase;
Impuritatea e maxima cand clasele de la nodul N au probab egale
- Entropie = masura incertitudinii din date; cu cat entropia e mai mica, cu atat modelul
este mai predictibil
- 10% sunt pusi correct in clasa No => exista eroare de 90%
- 32 % din volumul total al esantionului
- E important sa se specifice ce informatie s-a reprezentat in arbore; o sa ni se spuna in
cerinte ce e reprezentat acolo.
- Arborele din ex are sub fiecare nod frunza niste valori care arata cat la suta dintre toate
obs sunt in acel nod, iar cealalta valoare este probabilitatea asociata clasei.
- De ex Yes, 0.80 si 1% => 1% din total esantion s-a incadrat acolo si probabilitatea clasei
Yes este 0.8. Cu alte cuvinte, sunt 20% de indivizi care au fost incadrati gresit, 80% au
fost repartizati corect; Pot sa zic ca am o eroare de 20% sau pot sa zic ca 80% sunt pusi
corect in clasa Yes; 0.8 = probabilitatea clasei Yes.
- S-a ajuns la acel nod splitand din arbore. Aveam toate observatiile in nodul radacina si
apoi s-a tot impartit pe criterii.

4. Validare incrucisata
- Validarea incrucisata este utilizata pentru evaluarea performantelor modelelor estimate
prin arbori de regresie
- Principiul validarii incrucisate: unitatile disponibile in esantionul analizat se impart in
doua subesantioane: unul pt estimarea modelului si unul pentru testarea modelului
- In contextual arborilor de clasificare, validarea incrucisata este utilizata pentru a
identifica valoarea optima a parametrului de complexitate
- Acest grafic ilustreaza rezultatele validarii incrucisate aplicate pe un arbore de clasificare

- Din arborele principal rezulta 8 subarbori

- Linia orizontala reprezinta valoarea care indica punctul de minim al curbei + o abatere
standard

- Parametrul de complexitate, legat de arbori, este rezultatul unei validari incrucisate si imi
arata cum descreste eroarea in functie de dimensiunea arborelui

- Tai arborele la prima valoare de dupa linie; val optima a param de complexiate este
0.011 care corespunde unui arbore cu 7 noduri terminale

- N noduri terminale => n-1 ramificatii

- Parametrul de complexitate se leaga de impuritate, de entropie (Gini) si de crestere/taiere


in arbori. Parametrul de complexitate ne arata nivelul la care trebuie sa ne oprim,
deoarece daca creste mai mult acest parametru decat impuritatea. Entropia ne arata ce
procent din date este categorisita corect.
- Prima coloana cuprinde param de complexitate pt fiecare subarbore

- Rel error – eroarea relativa pt fiecare subarbore, adica riscul clasificarii eronate

- Tabelul mai contine si media si abaterea standard pt erorile obtinute ca urmare a


validarii incrucisate

- Vom allege acea valoare cand xerror < min (xerror) + xstd

- Tai acolo la randul 6 => obtin arbore cu urmatorul nr de ramificatii (8)

5. Random forest
Avantaje arbori de clasificare:
 Este usor de reprezentat, inteles si interpretat
 Variabilele calitative se pot integra cu usurinta
Dezavantaje:
 Robustete redusa - modificări minore în date pot genera modificări majore ale
outputului final
 Acuratete redusa a predictiilor realizate comparative cu alte metode de clasificare

Capacitatea predictiva a arborilor de clasificare poate fi creascuta prin metode precum


bagging sau random forest.
- Bootstrap pentru îmbunătățirea performanțelor arborilor, pentru reducerea varianței
(dacă estimăm un arbore pe un set extras aleator din eșantionul analizat vom obține
modele foarte diferite)
- Se folosește bootstrap pentru a genera B replici
- Pentru variabile calitative, clasa predictată va fi cea mai frecventă pentru cele B predicții
- B se alege suficient de mare astfel încât eroarea să se stabilizeze

Out of Bag (OOB- ESTIMAREA ERORII):


- 2/3 dintre observații sunt utilizate la fiecare replică
- OOB= observațiile nefolosite la estimare sunt folosite pentru testare
- În general vor fi B/3 predicții pentru o anumită observație
!!!! Folosirea bootstrapului contribuie la reducerea varianței și erorilor însă cu costul
interpretabilității (nu mai putem avea reprezentarea grafică și nici importanța variabilelor)
- Dar o măsură a importanței fiecărui predictor se poate obține pe baza indicelui Gini (valoarea
medie a descreșterilor indicelui atunci când un anumit predictor este utilizat)

Random forest combina simplicitatea unei arbore decizional cu flexibilitatea, ceea ce resulta
intr-o vasta imbunatatire a acuratetii.

Random forest este un clasificator de care poate fi legata si matricea de confuzie.

Pasi pentru Random Forest:

1.Create a ‘boostrapped’ dataset

Bootstrap e o tehnica de reesantionare; extrag un nr foarte mare de subesantionae dintr-o


populatie; este o extragere de replici, o extragere cu revenire; practic, arborii din colectia de la
random forest se construiesc pe replici rezultate din bootstrap

Folosirea bootstrapului contribuie la reducera variantei si a erorilor insa cu costul


interpretabilitaii (nu mai putem avea reprezentarea grafica si nici importanta variabilelor)
2. Crearea unui arbore de decizie folosind dataset-ul obtinut prin bootstrapped luand in
considerare, la fiecare pas, doar un subset de variabile random.
Folosind un dataset obtinut prin boostrap si folosind doar o parte dintre variabile la fiecare pas
va rezulta in obtinerea unei varietati de arbori decizionali

Cum folosim random forest: Practic o observatie si o trecem prin fiecare arbore pe care l-am
construit anterior iar rezultatul va fi dat de valoarea majoritara care s-a obtinut.

Obs: Bootstraping the data plus using the aggregate to make a decision is called ‘bagging’

Pentru a determina acuratatea modelului ne vom folosi de out-of-bag dataset.

Out-Of-Bag Dataset (OOB) -Informatia care nu a fost prinsa in dataset-ul obtinut prin
bootstraped.

Pentru a determina acurateatea luam observatiile din OOB si le trecem prin fiecare arbore creat
si vedem care dintre ele au fost clasificate corect si care nu. Si asa determinam acuratetea.
Out of bag error – proportia observatiilor incorect clasificate

Practic, acum ca putem determina acurateatea, random forest poate fi definit astfel

1. Construim un ramdom forest


2. Estimam acuratea arborelui obtinut si repetam acesti pasi pana obtinem cel mai acurat
model. La fiecare noua iteratie trebuie sa schimbam numaul de variabile utilizate la
fiecare pas.
Posibil grafic: Primul gf arata cu cat scade aacuratetea modelului daca o variabila nu este inclusa
si al doilea arata cu cat contribuie o variabial la construirea modelului.

- Graficul acesta ne arata importanta variabilelor in determinarea solutiei. Le ordoneaza de


la cele cu importanta mare la cele cu importanta mica.
- Random forest este un clasificator. Matricea de confuzie – de facut propozitii.
- Bootstrap este o tehnica de reesantionare, este o extragere de replici (un nr foarte mare
de subesantionae) dintr-o populatie. Practic, arborii din colectia de la random forest se
construiesc pe replici rezultate din bootstrap.
- Out of bag sunt niste observatii care raman in afara (nu intra in estimare), o parte dintre
valori (o treime dintre valori) nu sunt folosite la antrenare si se folosesc la testare. Putem
obtine o evaluarea a erorilor sau masuri ale acuratetii pe baza acestor out of bag.
Bagging = bootrstrap aggregating -metodă ce duce la obținerea unui nivel scăzut al varianței
- Prin extragerea de eșantioane multiple din setul de date, se pot construi clasificatori
multipli, rezultatele având un grad mai redus de incertitudine
- Se creează sute de arbori fără prunning, prin eșantionare cu revenire din setul inițial,
se construiește pt fiecare set de bootrstrap un clasificator
- Algoritm eficient, nu duce la overfitting
- Nu mai putem avea interpretare grafică
- Arborii rezultați sunt corelați
Random forest = metoda de bagging, însă construiește arbori de decizie pe fiecare eșantion
extras cu revenire, prin selectare aleatoare
Avantaje = evita overfittingu, performanțe mai ridicate decât arbori decizionali și nu e nevoie de
împărțire în set de antrenare și validare

6. Analiza conjoint

Analiza de tip conjoint trebuie sa stim ca definim atributele care imi definesc mai tarziu
profilele. EX de la curs este cel cu cafeaua. Dupa care construiesc un chestionar, in care fiecare
intrebare presupune sa evaluez doua profile diferite si sa spun pe care il aleg. De aceea in final
ajung sa am tot o aplicatie pentru regresia logistica, in final ajung la a alea/nu a ales. In final
ajungem la un output de regresie logistica.
Conjoint analysis este tehnica de marketing folosita pentru a prezice cum produsele create
sau imbunatatite ar trebui sa se comporte pe piata.
Este una dintre cele mai puternice metodologii pentru a optimiza caracteristicile unui produs.
Este foarte utila atunci cand trebuie sa decidem ce caracteristici/atribute trebuie sa fie
prioritizate.
Conjoint analysis este o metoda bazata pe chestionare.
Practic pun persoane sa aleaga din mai multe variante de produse avand diferite
atribute/caracteristici ca sa determin care e cea mai buna varianta
Daca avem k atribute ==> 2^k combinatii

Exemplu:
Pentru aplicarea analizei de tip conjoint a fost elaborat un chestionar care sa simuleze
procesul de alegere al unui liceu, respondentii primind sarcina de a allege dintre diferite
profile de licee. Au fost utilizate atribute pentru a defini liceul, fiecare fiind reprezentat cu o
variabila categoriala cu doua nivele astfel:
 Profil: uman/real
 Distanta de mers pe jos e mai mare de 15 minute: da/nu
 Persoane cunoscute in liceu: da/nu
 Liceul se afla in topul liceelor din orasul respectiv: da/nu
 Cladiri renovate: da/nu
Astfel, prima caracteristica (Profil) indica daca liceul are un profil uman sau unul real. A doua
caracteristica va primi eticheta “da” daca distanta de mers pe jos de acasa pana la liceu este
mai mare de 15 minute, si nu invers. Al treilea atribut indica daca respodentul cunoaste alte
persoane care studiaza la acel liceu. A patra caracteristica reflecta cat de important este ca
liceul sa se afle in topul liceelor din oras, deci sa fie un liceu bun Ultimul atribut indica daca
liceu a fost renovat sau nu.

7. Metode contrafactuale
Propensity score Matching (PSM)
Scopul PSM este sa estimam efectul net pe care un anumit ‘tratament’ il are in medie asupra
unor obiecte/entitati
Efectul mediu este estimat pe baza mediei diferentelor inregistrate de variabila dependenta
intre unitatile tratate si netratate.
Variabila tratement este o variabila binara

4 steps in propensity score matching:


1. Estimate propensity score
Propensity score poate fi privit ca probabilitatea ca o unitatea individual sa primeasca
‘tratamentul’.
De exemplu daca am vrea sa vedem efectele mersului la colegiu ar trebui ca mai intai sa
determinam probabilitatea ca un individ din datele noastre sa fii mers la colegiu.
Cel mai des se face prin regresie logistica sau probit regression, folosind variab de
control (exogene) ca sa prezicem tratamentul.
Practic aici doar prezicem daca un individ a primit tratament
2. Matching
Exista mai multe metode prin care putem face matching-ul
- Metoda celor mai apropati vecini: Imperechem doua unitati care au
scorul de propensitate similar.
3. Matching Quality Evaluation
Daca avem o potrivire buna putem sa trecem la pasul urmator si sa estimam efectul.
Daca nu avem putem sa ne intoarcem la pasii anterior sa folosim o alta strategie de
matching sau un alt set de variabile de control
4. Outcome Analysis
- vrem sa estimam efectul net al unui tratament/ al unei masuri asupra unor variabile
rezultate
- ele sunt de fapt aplicatii ale regresiei logistice
- regresia logistica furnizeaza aici o masura a unui scor; imi arata cat de
apropiate/indepartate sunt obiectele intre ele
- ex: avem niste masuri care se aplica somerilor din Romania; de exemplu: participarea la
un anumit curs de formare. Vreau sa vad ce effect are acest tratament asupra ocuparii
effective sau asupra insertiei/calitatii insertiei, sa observ veniturile, salariile celor care
beneficiaza de aceasta masura. Ca sa vad efectul net al acestei masuri controlez celelalte
caracteritstici ale somerilor care ar putea sa influenteze aceste rezultate: varsta,
vechimea, domeniul in care a lucrat, nivelul de educatie si altele. Daca le controlez pe
acestea, pot sa aflu care este efectul participarii la acea masura asupra
salariului/ocuparii, depinde ce am ales. Ca sa pot sa controlez ceilalti factori relevanti,
vreau sa compar individ de individ, iau fiecare individ din grupul celor de tratament si
compar cu un individ asemanator cu el din celalalt grup, grupul de control. Cum il gasesc
pe cel asemanator? Folosind regresia logistica, estimand un scor si astfel obtin cat de
aproape/departe sunt indivizii intre ei si pot sa compar indivizii asemanatori intre ei.
- Sa stim ce inseamna tratament/unitate tratata/effect net

- Sa ne uitam pe graficele de tip QQPlot – putem primi un graphic din asta si sa stim sa il
intepretam. Graficele de tip QQPlot pun pe abscisa si pe ordonata, cuantile pentru o
variabila numerica si se compara distributia variabilei varsta in cadrul grupului de
control vs in cadrul grupului de tratati. Am distributia normala pe abscisa si pe ordonata
am distributia mea sa vad daca distributiile sunt asemenatoare.

- Pe abscisa: cuantilele pt grupul de control, pe ordonata avem cuantilele pe grupul de


tratati. Norul de puncta sa se aseze cat mai bine pe diagonala, sa fie cat mai
aseamantoare variabilele

Exemplu:
Vrem sa vedem care este efectul unui nou medicament asupra unor pacienti bolnavi de boli
cardiace, mai exact asupra posibilatii de a suferi de infarct sau nu. Pentru a vedea efectul net,
controlez celelalte caracteristici ale indivizilor, precum varsta, genul, ritmul cardiac mediu,
valoarea glicemiei. Pentru a controla aceste caracteristici, compar un individ din grupul de
tratati cu un individ din grupul de control, care are caracteristici asemanatoare. Determin
individul cu caracteristici asemanatoare calculand un scor de propensitate. Acest scor se
determina utilizand regresia logistica.
Metode contrafactuale sunt folosite atunci cand vrem sa estimam efectul (impactul) net al unui
tratament asupra altui rezultat.
Efectul net il obtinem controland ati factori care poarte denimirea de covariare.
Metode contrafactuale de fapt aplicatii ale regresiei logistice.
Regresia logistica furnizeaza o masura a unui scor (scor de propensitate), care imi arata cat de
apropiate sau de indepartate sunt obiectele intre ele.

Ex meu: Recompensarea copiilor. Se doreste observarea efectului pe care recompensarea il are


asupra performantei scolare a copiilor. Pentru a observa efectul net al acestui
tratament(recompensea), se vor controla celelalte caracteristici ale copilului precum varsta,
sexul, preferinte si capacitatea de focusare, care ar putea influenta rezultatul`. Daca aceste
caracteristici sunt controlate, se poate identifica impactul net (efectul recompense) asupra
copiilor. Pentru a controla ceilalti factori relevanti se va compara copil cu copil. Astfel, fiecare
copil din grupul celor de tratament se va compara cu un copil cu caracteristici asemanatoare din
grupul de control. Pentru a gasi un copil cu caracteristici asemanatoare se va folosi regresia
logistica, estimand un scor de propensitate. In acest mod se va observa cat de aproape sau cat de
departe sunt copii intre ei si se vor putea compara.

PROPOZITII :
Scor de propensitate: In analizele contrafactuale, scorul de propensitate se folosite pentru a face
matching-ul intre indivizi din grupul de control si cei din grupul de tratament. Scorul de
propensitate se poate estima cu regresia logistica si in aceasta regresie variabila y este
tratamentul in functie de x.

Profil & Analiza multicriteriala: Intr-o analiza multicriteriala de tip conjoint, respondetii vor
evalua profile pentru un anumit produs/serviciu. Profilele se obtin variind atributele. De
exemplu, daca analiza multicriteriala se refera la a evalua care sunt preferintele consumatorilor,
avem ca atribut daca respectiva bautura e servita intr-un pahar de carton/plastic. (atributul era
paharul/recipientul cu cele doua nivele carton sau plastic). Pot sa compar un profil in care acest
atribut este varianta carton cu alt profil in care e pe plastic. Sau pastrez ambele profile, dar difera
alte caracteristici (pretul/cafeaua/locul de unde am cumparat).
Corpus = o colectie de documente.

DTM = Document Turn Matrix = forma structurata a datelor. Avem o matrice pe fiecare linie
avem terminei, iar pe coloana documente sau invers, ceea ce inseamna ca in matricea aveam
frecvente (ex: de cate ori apare un termen in cadrul unui document).

!!!! Overfittingul = model ce are performanțe bune asupra setului de training, dar o
performanță generalizată slabă – încearcă să minimizeze erorile la nivelul setului de training,
dar nu reușește să identifice natura reală a relațiilor din setul real de date
Tipuri de erori: asupra setului de training, asupra setului de test și de generalizare a modelului
Cauze: volum limitat al setului de training (creșterea volumului setului de training duce la
reducerea efectului de overfitting și diminuarea erorii de generalizare), complexitatea ridicată a
modelului sau problema comparațiilor multiple
!!!! Underfittingul = se întâmplă când arborele de decizie e prea simplu și incapabil să
reprezinte relațiile reale dintre atribute și clase

Selecția modelelor – se realizează în timpul construcției acestora și ajută le prevenirea


overfittingului (se previzionează eroarea de generalizare folosind un set de validare) E ales
modelul cu cea mai mică eroare.

Termeni explicati
Inertie = masura a variatie obtinute pe baza tabelului de contingenta prin intermediu lvalorii
statisticii chiu patrat
Tabel de contigenta – tabel care contine frecventele absolute
QQPlot - pun pe abscisa si pe ordonata, cuantile pentru o variabila numerica si se compara
distributia variabilei varsta in cadrul grupului de control vs in cadrul grupului de tratati

Matrice de confuzie – matrice cu doua linii si doua coloane care sintetizeaza performanta unui
clasificator

Entropie=masoara impuritatea intr-o multime de exemple


Corpus = o colectie de documente

Acuratețea = ponderea predicțiilor realizate correct din total predicții

Scorul F1 combină două metrici definite anterior: Senzitivitate și Precizie. F1


reprezintă media armonică a celor două măsuri.

DTM = document turn matrix = forma structura a datelor. Matrice de frecventa


(De cate ori apare un term in cadrul unui document)

Scor de propensitate= Probabilitatea ca un individ sa fii beneficiat de tratament

Verosimilitate maxima = Scopul metodei verosimilitatii maxime este de a gasi cel


mai bun mod de a gasi o distributie pentru setul de date.

S-ar putea să vă placă și