Documente Academic
Documente Profesional
Documente Cultură
Analiza corespondentelor
- cu cât punctele sunt mai apropiate cu atât există o similitudine mai ridicată între
categoriile respective ale rândului (coloanei);
- Situarea față de centrul graficului – apropierea punctelor de centrul graficului
sugerează prezența unui profil asemănător cu cel mediu, iar plasarea lor la depărtare
de acesta indică manifestarea unor particularități specifice categoriei respective.
In aceasta figura este reprezentata proiectia punctelor in spatiul bidimensional. Cele doua
dimensiuni explica 23.4 + 72.2 = 95.6% din cantitatea de informatie.
- Primele doua dimensiuni explica 95.6 % din inertia totala, deci putem spune ca primele
2 dimensiuni sunt suficiente pentru stocarea informatiei.
- Pe coloana value sunt valorile proprii ale fiecarei dimensiuni => inertia fiecarei
dimensiuni
- Dintre toate scorurile oferite afirmatiei, cel mai puternic corelat cu prima axa este scorul
de 1, iar cu a doua axa, scorul 5
- Dintre toate tarile, cea mai puternic corelata cu prima axa este Rusia, iar cel mai mult
corelata cu a doua axa este Franta
- Ctr => La explicarea inertiei primei axe, cel maim ult contribuie scorul de 1 acordat de
respondentia din Rusia (ctr = 0.597 si ctr = 0.698). Prima dimensiune = scor de 1 si
respondenti din Rusia
- La explicarea inertiei celei de-a doua axe, cel mai mult contribuie scorul de 5 acordat de
cei din Franta; A doua dimensiune = socr de 5 si respondenti din Franta
- MASS- in ce proportie reflecta media- procentul din frecventa totala a unei anumite
categorii a unei variabile din setul de date. Reprez ponderea sau importanta acelei
categorii in analiza generala
TEIA:
Avem o valoare a inertiei totale = 0.282
Scopul analizei corespondentelor este reducerea dimensionalitatii. Inertia este o masura a
variatei, a informatiei in datele noastre.
Inertia totala se calculeaza pornind de la o matrice de contingenta, iar pentru a ajunge la acea
valoare trebuie sa comparam valoarea observata cu o valoare teoretica. Valoarea teoretica ne
arata cat as fi observat acolo daca variabilele noastre erau independente.
- toate valorile care apar in outputul cu rows si columns sunt de fapt cu 0 virgula, se impart
la 1000. De ex, mass = 353 e de fapt 0.353.
Exemplu din viata reala:
2. Regresie logistica
Interpretarea parametrilor
- Categoria de baza = Female => sansele ca o persoana sa devina antreprenor sunt mai
mici in cazul femeilor decat in cazul barbatilor
- Categoria de baza = w1 = Persoane angajate => sansele sunt mai mari la persoanele in
cautare de loc de munca fata de cele angajate (pt ca am 0.80); sansele sunt mai mici, dar
nu semnificativ, la persoanele inactive fata de cele angahate (-0.14).
Bonitatea modelului
- Null deviance = se compara modelul nul (contine doar termenul liber) cu modelul
complet (contine cate un parametru pt fiecare observatie). Devianta nula indica cat de
bun este raspunsul prognozat de un model in care apare numai termenul liber.
- Residual deviance = se compara modelul curent cu modelul complet. Devianta reziduala
indica cat de bun este raspunsul prognozat de un model in care se adauga variabilele
independente.
- Daca devianta residuala e mai mica decat cea nula, se allege modelul current.
- AIC reprezinta criteriul informational AKAIKE care se foloseste pt a compara diverse
modele, alegandu-se modellul cu valoarea cea mai mica.
- Valori mai mici => un mode mai bun
-
- Calculez R patrat, care arata bonitatea modelului, deci in ce masura variabila
dependenta este explicate de variabilele independente din modelul analizat
- R patrat = 10 % => exista alti multi factori care determina sansele ca o persoana sa
devina antreprenor
- 1-0.7856 = 21,44%. Sansele de a porni o afacere sunt mai mari cu 21,44% la barbati
decat la femei sau sunt mai mici cu 21,44% la femei decat la barbati
- 1-0.9719 = 2,81% => Sansele de a porni o afacere scad cu 2,81% cand persoana
inainteaza in varsta cu un an=> daca e pozitiv y scade cand x creste; daca e negativ y
creste cand x creste
- 1-5.194 = -410% => Sansele de a porni o afacere sunt cu 410% mai mici pentru
persoanele care nu considera ca au aptitudini fata de cele care considera ca au
aptitudini.
- 1-2.2294103 = -123 % => Sansele de a porni o afacere sunt cu 123% mai mari la
persoanele in cautare de loc de munca fata de persoanele angajate
- 1-0.8652201 = 13.47% => Sansele de a porni o afacere sunt cu 13.47 % mai mici la
persoanele inactive fata de persoanele angajate.
Curba ROC
- Prag de probabilitate peste care un individ este clasificat in clasa 1
- De obicei, avem prag de probabilitate de 0.5
- Se stabilieste un prag de semnificatie de la care putem considera ca o observatie se
incadreaza in clasa 1 (clasa pozitiva)
- Model ideal = curba roc e cat mai aproape de coltul din stanga sus
- Cu cat AUC este mai mare cu atat performanta discriminativa a testului este mai buna
- AUC inte 0.5-0.7 – acuratete redusa ; 0.7-0.9 – moderata; peste 0.9 – ridicata
TEIA:
- Curba ROC se construieste pentru orice clasificator. Are pe abscisa false positive rate si
pe ordonata true prositive rate. Culoarea imi da valoarea thresholdului. Thresholdul
reprezinta care este pragul de la care clasific unitatile in categ 1, respectiv in categ 2.
- Ni se poate cere sa evaluam un clasificator pe baza curbei ROC: Atunci trebuie sa
analizam aria de sub curba ROC, care trebuie sa fie cat mai mare.
- In graficul din ex, clasificatorul depaseste performantele unui clasificator
aleator(deoarece este peste diagonala), nu este un clasificator foarte bun.
- Un prag de 0.5 mi-ar aduce un false positive rate de 0, dar si un true positive rate foarte
mic, deci nu ma ajuta 0.5 in acest context.
Aria de sub curba ROC este de aproximativ 70% indicând faptul că am obţinut un clasificator
mai bun decât un clasificator aleator. O valoare a pragului probabilităţii de 0.5 ar conduce la o
rată foarte mică a clasificării pozitive false (indivizii care în realitate nu au demarat o afacere nu
vor fi clasificaţi prin model ca potenţiali antreprenori). Dar în acelaşi timp rata clasificării
pozitive corecte este extreme de redusă (cei care doresc să devină antreprenori nu sunt incluşi
conform modelului în clasa 1). Pentru că ne dorim o rată redusă a clasificării incorecte în clasa
1(potenţiali antreprenori care depun eforturi în vederea dezvoltării unei afaceri) şi o rată cât
mai mare a clasificării corecte în clasa 1, ne-ar interesa sa identificăm un punct pe curba ROC în
poziţia Nord-Vest. Din păcate clasificatorul nostru nu oferă astfel de soluţi
Interpretarea matricei de confuzie.
- In functie de domeniul in care lucrez, false positive rate poate sa fie mai grav false
negative rate. clasificarile gresite de un anumit soi pot fi mai costisitoare sau mai grave
fata de alte domenii. E mai grav sa clasific fals positive decat fals negative in medicina.
Matrice de confuzie:
Clase dezechilibrate
Pași
- Pentru observațiile extrase la pasul anterior, se identifică cei mai apropiați k vecini
- Pentru unul dintre acești vecini, se calculează vectorul diferență dintre unitatea originală și
acesta
3. Arbori de clasificare
- Ideal este ca nodurile terminale sa fie noduri pure, in care toate obiectele au aceeasi
apartenenta (aceeasi eticheta)
- Pentru a cuantifica impuritatea unui nod, se foloseste entropia sau indicele Gini
- Impuritatea unui nod este 0 daca formele din nodul resp apartin aceleiasi clase;
Impuritatea e maxima cand clasele de la nodul N au probab egale
- Entropie = masura incertitudinii din date; cu cat entropia e mai mica, cu atat modelul
este mai predictibil
- 10% sunt pusi correct in clasa No => exista eroare de 90%
- 32 % din volumul total al esantionului
- E important sa se specifice ce informatie s-a reprezentat in arbore; o sa ni se spuna in
cerinte ce e reprezentat acolo.
- Arborele din ex are sub fiecare nod frunza niste valori care arata cat la suta dintre toate
obs sunt in acel nod, iar cealalta valoare este probabilitatea asociata clasei.
- De ex Yes, 0.80 si 1% => 1% din total esantion s-a incadrat acolo si probabilitatea clasei
Yes este 0.8. Cu alte cuvinte, sunt 20% de indivizi care au fost incadrati gresit, 80% au
fost repartizati corect; Pot sa zic ca am o eroare de 20% sau pot sa zic ca 80% sunt pusi
corect in clasa Yes; 0.8 = probabilitatea clasei Yes.
- S-a ajuns la acel nod splitand din arbore. Aveam toate observatiile in nodul radacina si
apoi s-a tot impartit pe criterii.
4. Validare incrucisata
- Validarea incrucisata este utilizata pentru evaluarea performantelor modelelor estimate
prin arbori de regresie
- Principiul validarii incrucisate: unitatile disponibile in esantionul analizat se impart in
doua subesantioane: unul pt estimarea modelului si unul pentru testarea modelului
- In contextual arborilor de clasificare, validarea incrucisata este utilizata pentru a
identifica valoarea optima a parametrului de complexitate
- Acest grafic ilustreaza rezultatele validarii incrucisate aplicate pe un arbore de clasificare
- Linia orizontala reprezinta valoarea care indica punctul de minim al curbei + o abatere
standard
- Parametrul de complexitate, legat de arbori, este rezultatul unei validari incrucisate si imi
arata cum descreste eroarea in functie de dimensiunea arborelui
- Tai arborele la prima valoare de dupa linie; val optima a param de complexiate este
0.011 care corespunde unui arbore cu 7 noduri terminale
- Rel error – eroarea relativa pt fiecare subarbore, adica riscul clasificarii eronate
- Vom allege acea valoare cand xerror < min (xerror) + xstd
5. Random forest
Avantaje arbori de clasificare:
Este usor de reprezentat, inteles si interpretat
Variabilele calitative se pot integra cu usurinta
Dezavantaje:
Robustete redusa - modificări minore în date pot genera modificări majore ale
outputului final
Acuratete redusa a predictiilor realizate comparative cu alte metode de clasificare
Random forest combina simplicitatea unei arbore decizional cu flexibilitatea, ceea ce resulta
intr-o vasta imbunatatire a acuratetii.
Cum folosim random forest: Practic o observatie si o trecem prin fiecare arbore pe care l-am
construit anterior iar rezultatul va fi dat de valoarea majoritara care s-a obtinut.
Obs: Bootstraping the data plus using the aggregate to make a decision is called ‘bagging’
Out-Of-Bag Dataset (OOB) -Informatia care nu a fost prinsa in dataset-ul obtinut prin
bootstraped.
Pentru a determina acurateatea luam observatiile din OOB si le trecem prin fiecare arbore creat
si vedem care dintre ele au fost clasificate corect si care nu. Si asa determinam acuratetea.
Out of bag error – proportia observatiilor incorect clasificate
Practic, acum ca putem determina acurateatea, random forest poate fi definit astfel
6. Analiza conjoint
Analiza de tip conjoint trebuie sa stim ca definim atributele care imi definesc mai tarziu
profilele. EX de la curs este cel cu cafeaua. Dupa care construiesc un chestionar, in care fiecare
intrebare presupune sa evaluez doua profile diferite si sa spun pe care il aleg. De aceea in final
ajung sa am tot o aplicatie pentru regresia logistica, in final ajung la a alea/nu a ales. In final
ajungem la un output de regresie logistica.
Conjoint analysis este tehnica de marketing folosita pentru a prezice cum produsele create
sau imbunatatite ar trebui sa se comporte pe piata.
Este una dintre cele mai puternice metodologii pentru a optimiza caracteristicile unui produs.
Este foarte utila atunci cand trebuie sa decidem ce caracteristici/atribute trebuie sa fie
prioritizate.
Conjoint analysis este o metoda bazata pe chestionare.
Practic pun persoane sa aleaga din mai multe variante de produse avand diferite
atribute/caracteristici ca sa determin care e cea mai buna varianta
Daca avem k atribute ==> 2^k combinatii
Exemplu:
Pentru aplicarea analizei de tip conjoint a fost elaborat un chestionar care sa simuleze
procesul de alegere al unui liceu, respondentii primind sarcina de a allege dintre diferite
profile de licee. Au fost utilizate atribute pentru a defini liceul, fiecare fiind reprezentat cu o
variabila categoriala cu doua nivele astfel:
Profil: uman/real
Distanta de mers pe jos e mai mare de 15 minute: da/nu
Persoane cunoscute in liceu: da/nu
Liceul se afla in topul liceelor din orasul respectiv: da/nu
Cladiri renovate: da/nu
Astfel, prima caracteristica (Profil) indica daca liceul are un profil uman sau unul real. A doua
caracteristica va primi eticheta “da” daca distanta de mers pe jos de acasa pana la liceu este
mai mare de 15 minute, si nu invers. Al treilea atribut indica daca respodentul cunoaste alte
persoane care studiaza la acel liceu. A patra caracteristica reflecta cat de important este ca
liceul sa se afle in topul liceelor din oras, deci sa fie un liceu bun Ultimul atribut indica daca
liceu a fost renovat sau nu.
7. Metode contrafactuale
Propensity score Matching (PSM)
Scopul PSM este sa estimam efectul net pe care un anumit ‘tratament’ il are in medie asupra
unor obiecte/entitati
Efectul mediu este estimat pe baza mediei diferentelor inregistrate de variabila dependenta
intre unitatile tratate si netratate.
Variabila tratement este o variabila binara
- Sa ne uitam pe graficele de tip QQPlot – putem primi un graphic din asta si sa stim sa il
intepretam. Graficele de tip QQPlot pun pe abscisa si pe ordonata, cuantile pentru o
variabila numerica si se compara distributia variabilei varsta in cadrul grupului de
control vs in cadrul grupului de tratati. Am distributia normala pe abscisa si pe ordonata
am distributia mea sa vad daca distributiile sunt asemenatoare.
Exemplu:
Vrem sa vedem care este efectul unui nou medicament asupra unor pacienti bolnavi de boli
cardiace, mai exact asupra posibilatii de a suferi de infarct sau nu. Pentru a vedea efectul net,
controlez celelalte caracteristici ale indivizilor, precum varsta, genul, ritmul cardiac mediu,
valoarea glicemiei. Pentru a controla aceste caracteristici, compar un individ din grupul de
tratati cu un individ din grupul de control, care are caracteristici asemanatoare. Determin
individul cu caracteristici asemanatoare calculand un scor de propensitate. Acest scor se
determina utilizand regresia logistica.
Metode contrafactuale sunt folosite atunci cand vrem sa estimam efectul (impactul) net al unui
tratament asupra altui rezultat.
Efectul net il obtinem controland ati factori care poarte denimirea de covariare.
Metode contrafactuale de fapt aplicatii ale regresiei logistice.
Regresia logistica furnizeaza o masura a unui scor (scor de propensitate), care imi arata cat de
apropiate sau de indepartate sunt obiectele intre ele.
PROPOZITII :
Scor de propensitate: In analizele contrafactuale, scorul de propensitate se folosite pentru a face
matching-ul intre indivizi din grupul de control si cei din grupul de tratament. Scorul de
propensitate se poate estima cu regresia logistica si in aceasta regresie variabila y este
tratamentul in functie de x.
Profil & Analiza multicriteriala: Intr-o analiza multicriteriala de tip conjoint, respondetii vor
evalua profile pentru un anumit produs/serviciu. Profilele se obtin variind atributele. De
exemplu, daca analiza multicriteriala se refera la a evalua care sunt preferintele consumatorilor,
avem ca atribut daca respectiva bautura e servita intr-un pahar de carton/plastic. (atributul era
paharul/recipientul cu cele doua nivele carton sau plastic). Pot sa compar un profil in care acest
atribut este varianta carton cu alt profil in care e pe plastic. Sau pastrez ambele profile, dar difera
alte caracteristici (pretul/cafeaua/locul de unde am cumparat).
Corpus = o colectie de documente.
DTM = Document Turn Matrix = forma structurata a datelor. Avem o matrice pe fiecare linie
avem terminei, iar pe coloana documente sau invers, ceea ce inseamna ca in matricea aveam
frecvente (ex: de cate ori apare un termen in cadrul unui document).
!!!! Overfittingul = model ce are performanțe bune asupra setului de training, dar o
performanță generalizată slabă – încearcă să minimizeze erorile la nivelul setului de training,
dar nu reușește să identifice natura reală a relațiilor din setul real de date
Tipuri de erori: asupra setului de training, asupra setului de test și de generalizare a modelului
Cauze: volum limitat al setului de training (creșterea volumului setului de training duce la
reducerea efectului de overfitting și diminuarea erorii de generalizare), complexitatea ridicată a
modelului sau problema comparațiilor multiple
!!!! Underfittingul = se întâmplă când arborele de decizie e prea simplu și incapabil să
reprezinte relațiile reale dintre atribute și clase
Termeni explicati
Inertie = masura a variatie obtinute pe baza tabelului de contingenta prin intermediu lvalorii
statisticii chiu patrat
Tabel de contigenta – tabel care contine frecventele absolute
QQPlot - pun pe abscisa si pe ordonata, cuantile pentru o variabila numerica si se compara
distributia variabilei varsta in cadrul grupului de control vs in cadrul grupului de tratati
Matrice de confuzie – matrice cu doua linii si doua coloane care sintetizeaza performanta unui
clasificator