Sunteți pe pagina 1din 14

1)CeesteKDP şicaresuntetapelesale?

Un model KDP se defineşte ca un proces de identificare a paternurilor (tiparelor) valide, noi şi


potenţial utile şi pline de înţeles din date. Scopul realizării unui astfel de model este de a se defini
proceduri care să ghideze utilizatorul tehnicilor de data mining în activitatea de de extragere a
cunoştinţelor din date.
Etape:
- Înţelegerea domeniului problemei
- Înţelegerea datelor
- Pregătirea datelor
- Utilizarea unui algoritm de Data Mining adecvat
- Evaluarea cunoştinţelor descoperite
- Utilizarea cunoştinţelor descoperite

2)Formastandardde prezentarea datelorde antrenamentînDataMining

Forma de organizare a datelor de antrenament trebuie să fie corespunzătoare tipulului de metodă


utilizată (învăţare supervizată sau nesupervizată). Volumul şi calitatea datelor au o importanţă crucială
în construcţia unui model de învăţare. Un astfel de model presupune şi existenţa unui univers de
obiecte pe baza căruia se realizează învăţarea. Caracteristicile obiectelor sunt descrise cu ajutorul
variabilelor, numite şi atribute sau features (caracteristici, trăsături). Astfel, un obiect poate fi descris
prin intermediul unei înregistrări (sau instanţe) care cuprinde valorile atributelor sale.
3)Enumeraţişidescrieţi pescurttreitipurideînvăţareautomată

ÎNVĂŢARE SUPERVIZATĂ

În cazul învăţării supervizate algoritmul de învăţare se antrenează pe date

etichetate. Relaţia dintre vectorul atributelor (numit şi vectorul intrărilor) 𝒙𝒊

şi eticheta corespunzătoare 𝑦𝑖 (numită şi ieşire) reflectă o anumită experienţă

care este valorificată în procesul de învăţare în încercarea de a descoperi o

relaţie cât mai „bună” între intrări şi ieşiri. Învăţarea supervizată imită tipul

de învăţare al studentului supervizat de profesor: aşa cum profesorul

corectează răspunsurile date de student, tot aşa ieşirile algoritmului de

învăţare supervizată sunt comparate cu valorile corecte, învăţarea rezultând

din adaptarea parametrilor modelului în încercarea de a furniza ieşiri

corecte.

ÎNVĂŢARE NESUPERVIZATĂ
Dacă „supervizorul” lipseşte, adică datele de antrenament sunt neetichetate,

acestea pot fi utilizate pentru antrenarea unui model de învăţare

nesupervizată. Exemplul tipic îl reprezintă metodele de clusterizare prin care

se încearcă detectarea unei structuri de clusteri în mulţimea de obiecte

(instanţe) 𝒙𝒊,𝑖=1,2,⋯,𝑛.

ÎNVĂŢARE PRIN ÎNTĂRIRE

Acest tip de învăţare este utilizat mai ales în rezolvarea problemelor în care

soluţia apare ca o suită de decizii. Exemplele tipice se referă la deplasarea

roboţilor, conducerea maşinilor autonome etc. Algoritmul de învăţare este

centrat pe mecanismul încercare-eroare (trial and error): sistemul învaţă prin

încercări care este secvenţa corectă, fiind recompensat pentru fiecare pas

reuşit.

4)Enumeraţi şi descrieţi pe scurt scalele de măsurători

Cele patru scale de măsurători sunt: nominale, ordinale, interval şi raport.


O variabilă de tip nominal, este acea variabilă care permite etichetarea obiectelor ca aparţinând
unei categorii. Variabilele de tip ordinal sunt variabile care au definită, în plus faţă de tipul
nominal, şi o relaţie de ordine. De exemplu, valorile mic, mediu mare, foarte mare se află în mod
evident într-o ordine crescătoare. În cazul variabilelor de tip interval sunt păstrate caracteristicile
tipurilor de date precedente, iar valorile sunt măsurate la intervale egale, în raport cu o valoare
zero aleasă convenţional, numită origine. Variabilele de tip raport păstrează caracteristicile
scalelor prezentate anterior, însă în acest caz valoarea zero nu este o valoare aleasă convenţional
ci una care exprimă absenţa obiectului măsurat.
5)Cumtratămvalorilecarelipsescdindateledeantrenament?

Valorile lipsă pot fi înlocuite cu media aritmetică a valorilor prezente, dacă această
medie are un înţeles pentru instanţele respective. În cazul artributului cu valori
categoricale, valorile lipsă pot fi înlocuite cu acea valoare a atributului care are cea
mai mare frecvenţă. Ambele abordări trebuie însă aplicate cu moderaţie.

6)Ceesteoperaţiadenormalizareadatelorşicândserecomandăefectuareaacesteioperaţii?
În anumite cazuri este nevoie ca datele să fie normalizate, adică aduse la acelaşi ordin de mărime,
deoarece rezultatele algoritmului folosit sunt influenţate hotărâtor de valoarea lor dominantă.
Dacă min este valoarea minimă a unui atribut, iar max valoarea sa maximă, o variantă de
standardizare frecvent utilizată este ca fiecare valoare x a atributului să fie
înlocuită prin 𝑥−𝑚𝑖𝑛𝑚𝑎𝑥−𝑚𝑖𝑛, iar în felul acesta valorile normalizate vor fi cuprinse în
intervalul [0,1].

7)Deceestenecesarăuneorireducerea număruluideatributeîntr-unmodelde
învățareautomată?
Creşterea spectaculoasă a capacităţii de stocare a datelor a permis memorarea unui
volum mare de date, fără a analiza utilitatea lor reală, în ideea că poate în viitor ele
vor fi folositoare. Existenţa unui număr mare de atribute creşte probabilitatea ca o
parte dintre ele să fie puternic corelate şi deci unele să fie inutile din punct de
vedere al aportului de informaţie pe care-l aduc. În consecinţă, în această situaţie,
cu ajutorul analizei de corelaţie un număr de atribute poate fi eliminat, cu implicaţii
benefice asupra rezultatelor obţinute.
8)Definiţinoţiunilede risc,riscempiricşiprecizaţilegăturadintre ele
Practic, acest obiectiv se realizează prin minimizarea aşa numitul risc R (numit şi
eroare generalizată, eroare de predictive sau eroare adevărată ) al ipotezei ℎ. În
practică, de regulă repartiţia comună (𝒙,) este necunoscută, iar riscul (ℎ) nu se poate
calcula folosind relaţia (4.1). Se poate calcula în schimb o estimaţie a acestuia,
numită risc empiric (eroare empirică sau eroare de antrenament) pe baza datelor de
antrenament, conform relaţiei (4.2) de mai jos:
(ℎ)=1𝑛Σ𝑐(ℎ(𝑛𝑖=1𝒙𝑖), 𝑦𝑖).
Putem utiliza riscul empiric 𝑅𝑒𝑚𝑝(ℎ) în locul riscului 𝑅(ℎ) pentru a selecta ipoteza ℎ̂
deoarece în baza Legii numerelor mari, când volumul 𝑛 al datelor de antrenament
tinde la infinit (adică este suficient de mare) riscul empiric 𝑅𝑒𝑚𝑝(ℎ) tinde în
probabilitate către riscul 𝑅(ℎ);
 pe baza inegalităţii lui Hoeffding se poate evalua distanţa dintre riscul 𝑅(ℎ) şi
riscul empiric 𝑅𝑒𝑚𝑝(ℎ).

9)Ceestefuncţiadecostşicumsedefineşteîncazulmodelorderegresieşideclasificare?

Costul aproximării funcţiei 𝑓 prin ipoteza ℎ se determină cu ajutorul unei funcţii de

cost adecvate. Dacă eticheta ia valori de tip continuu, modelul de învăţare se

numeşte model de regresie, iar în mod tipic funcţia de cost este definită ca pătratul

diferenţei dintre valoarea adevărată 𝑦 şi valoarea prezisă ℎ(𝒙). Dacă eticheta ia


valori de tip discret, modelul de învăţare se numeşte model de clasificare.

10)Prezentaţipescurtmetodacelormaimici pătrate

Metoda celor mai mici pătrate permite obţinerea unei soluţii analitice (utilizată mai

ales în abordarea modelului de regresie din perspectiva Statisticii Matematice).


11)Caresuntvariantele neanaliticederezolvareamodeluluideregresie?

- Metoda celor mai mici pătrate, care permite obţinerea unei soluţii analitice
(utilizată mai ales în abordarea modelului de regresie din perspectiva Statisticii
Matematice);
- Metoda gradientului descendent, în care soluţia se obţine prin aproximări
succesive (utilizată în special în Machine Learning, foarte eficientă pentru
tratarea volumelor mari de date) .

12)Explicaţicompromisul deplasare-dispersie

In timp ce dispersia (varianţa) este o funcţie crescătoare, pătratul deplasării este o


funcţie descrescătoare. Dacă încercăm să micşorăm deplasarea (mărind
complexitatea modelului) efectul este creşterea dispersiei, iar micşorarea dispersiei
(prin micşorarea complexităţii modelului) conduce la creşterea deplasării.

13)Explicaţinoţiuniledesupraînvăţare(overfitting)şisubînvăţare

(underfitting)

Supraînvăţarea (overfitting) şi subînvăţarea (underfitting) sunt două situaţii extreme


care se pot întâlni în procesul de construire a unui model de învăţare.
Supraînvăţarea se întâlneşete în cazul modelelor de complexitate
mare, extrem de adecvate datelor de antrenament (deplasare
mică), dar care, conform celor relatate în paragraful anterior, au o
mare variabilitate (dispersie mare).
În cazul subînvăţării ipoteza selectată nu este nici pe departe
adecvată datelor de antrenament, astfel că modelul rezultat este
total nepotrivit.

14)Ceestemulticoliniaritateaşicaresuntconsecinţeleei?

Situaţia descrisă drept multicoliniaritate apare atunci când un grup de

variabile independente sunt puternic corelate între ele. În acest caz, prin
includerea în model a unei variabile din grup, restul variabilelor din grup nu

mai aduc o informaţie semnificativă. Simultan are loc o supraevaluare a

coeficientului de determinare, ca şi a dispersiilor coeficienţilor estimaţi, ceea

ce poate denatura interpretarea modelului şi, în plus, produce mărirea

intervalelor de încredere.

21)ÎnceconstăoptimalitateaclasificatoruluiBayes?

Clasificatorul Bayes este optimal, în sensul că acesta are eroarea de predicţie mai mică decât a
oricărui alt clasificator. Din păcate, de cele mai multe ori, calculul exact al probabilităţilor
condiţionate este imposibil, şi atunci se utilizează în locul lor estimaţii ale acestora. În cele ce
urmează vom prezenta două astfel de situaţii: analiza discriminantă liniară şi regresia logistică.

22)JustificaţiutilizareacuvintelorBayesşiNaiveîndenumirea clasificatoruluiNaiveBayes
Clasificatorul Bayes este optimal, în sensul că acesta are eroarea de predicţie mai
mică decât a oricărui alt clasificator. Din păcate, de cele mai multe ori, calculul
exact al probabilităţilor condiţionate este imposibil, şi atunci se utilizează în locul
lor estimaţii ale acestora. Clasificatorul Naive Bayes reprezintă una din formele de
implementare a clasificatorului Bayes, care se fundamentează pe Teorema lui
Bayes, prezentată anterior.
23)Ce densitate de repartiţie se presupune că are variabila aleatoarecare genereazădatele
uneiclase,încazul metodeiLDA?
Densitatea de repartitie care genereaza datele unei clase este probabilitatea conditionata.
24)Careestelegăturadintre
clasificatorulBayesşiclasificatoriiNaiveBayesşiAnalizaDiscriminantăLiniară(LDA)?

Clasificatorii Naive Bayes si LDA reprezinta variante practice de implementare ale


clasicatorului Bayes.

25)CareelementdenaturăstatisticădiferenţiazămetodaLDA(LinearDiscriminantAnalysis)de
metodaQDA(QuadraticDiscriminantAnalysis)?
In cazul LDA, clasele sunt separate prin functii de gradul inatai, iar in cazul QDA, prin functii de
gradul al doilea.

26)Definiţifuncţialogisticăşienumeraţimotivelepentrucareesteutilizatăpentruamodeladirec
tprobabilităţilecondiţionate

Regresia logoistica este ca si metoda LDA, o metoda de clasificare liniara. Insa spre deosebire
de metoda LDA, regresia logistica estimeaza probabilitatea maxima de aproximare.

Motive:

- Probabilitatea la valori intre 0 si 1

- Dispersia sa fie constanta

- Eroarea nu are un comportament normal

27)Definiţitransformatalogit
Transformatorul logit arata ca frontiera dintre clase, numita si frontiera de decizie,
este o functie liniara.
28)Explicaţidece Regresialogisticăesteometodăde clasificareliniară
derivatădinclasificatoruloptimalBayes
generalizare a regresiei logistice în care variabila dependentă 𝑦 poate lua doar două
valori (din acest motiv acest model este denumit uneori regresie logistică binară)
este regresia logistică multinomială. În regresia logistică multinomială variabila
dependentă 𝑦 poate lua 𝑚>2 (>mai mare) valori de ieşire (clase) pe care le vom
nota, pentru simplitatea expunerii, pur şi simplu 1,2,…,𝑚.

29)Definiţi noţiunea de distanţă. Exemple de


distanțe
În general, fiind dată mulţimea 𝐴, o funcţie d:→𝑅+ se numeşte distanţă dacă pentru
punctele oarecare 𝑥,𝑦 şi 𝑧 din 𝐴 sunt satisfăcute condiţiile:
1. (𝑥,)=0 dacă şi numai dacă 𝑥=𝑦
2. (𝑥,)=𝑑(𝑦,𝑥) (simetria)
3. (𝑥,)≤𝑑(𝑥,𝑧)+𝑑(𝑧,𝑦) (inegalitatea triunghiului)

Exemple de distante:
Distanţa euclidiană
Distanţa Manhattan (cunoscută şi sub numele de city-block sau taxi distance)
Distanţa Maxim
Distanţa Minkovski

30)Explicaţiprincipiul metodei k-nn


Clasificatorul 𝑘−𝑁𝑁 (𝑘 Nearest Neighbours-cei mai apropiaţi 𝑘 vecini) se bazează
pe ideea foarte simplă că predicţia clasei unei instanţe noi se poate face în funcţie
de clasele cu care sunt etichetaţi cei mai apropiaţi 𝑘 vecini ai acestei instanţe.
Evident, problema are sens dacă pe mulţimea instanţelor am definit o funcţie
distanţă.
31)DescrieţimodeluldeclasificarecarerezultăînurmaaplicăriialgoritmuluiTDI
DT
Algoritmul TDIDT (Top-Down Induction of Decision Trees) este un
algoritm care stă la baza unei clase de algoritmi inventaţi în anii 1960.
Dezvoltarea lor spectaculoasă a contribuit decisiv la automatizarea
producerii regulilor de decizie, devenind în scurt timp alternativa de
succes a sistemelor expert în rezolvarea acestei probleme.
Ideea care stă la baza algoritmului TDIDT este de a construi un arbore de decizie în
care nodul rădăcină este tabelul iniţial al datelor de antrenament, iar celelalte noduri
sunt subtabele obţinute
recursiv prin divizare în raport cu valorile atributelor. Nodurile
terminale ale arborelui obţinut sunt subtabele care conţin instanţe din
aceeaşi clasă.
32)Ce înseamnă faptulcă este îndeplinită condiţia de adecvare a datelor?
Îndeplinirea condiţiei de adecvare a datelor conduce la obţinerea unor arbori de
decizie în care nodurile terminale sunt omogene (pure) din punct de vedere al clasei.
Dacă această condiţie nu este îndeplinită, conflictul din date se va reflecta în
arborele obţinut prin existenţa unor noduri terminale
mixte
33AlgoritmulTDIDTsepoateaplicanumaidacăatributelesuntcategoricale?

34)Ceînseamnăfaptul căalgoritmulTDIDTnuestespecificat?
Algoritmul TDIDT nu este specificat, în sensul că pentru fiecare pas al construcţiei
arborelui de decizie se poate selecta orice atribut, singura condiţie fiind să nu fi fost
deja selectat

35)Careesterelaţiadintreentropiauneitabeleşigraduleidepuritate(omogenitate)?
În consecinţă, a alege cel mai „bun” atribut înseamnă a selecta atributul ai cărui
succesori (fii) sunt pe cât posibil omogeni din punct de vedere al clasei. Gradul de
puritate sau de ordine al unui tabel variază între minim şi maxim cu următoarele
precizări:
- este maxim, când toate instanţele aparţin aceleiaşi clase;

- este minim, când numărul instanţelor din fiecare clasă este acelaşi.
-
36)Explicaţidece faptulcăseutilizeazăentropia
pentruselectareaatributuluidedivizarecreşteşansacaarborelerezultatsăfieunmodelcuputer
emaredepredicţie
O abordare simplistă este aceea de a încerca să tratăm valorile atributelor
continue ca fiind de tip discret (categorical). Deoarece sunt însă şanse mari ca
mjoritatea valorilor să fie diferite, atunci divizarea după un astfel de atribut va
conduce la crearea unui arbore cu putere mică de predicţie.

37)Explicați cum se poate transforma un atribut de tip continuu , care ia m valori în m-1
atributecategoricaleechivalente
𝑚 este un punct de divizare se pot crea 𝑚−1 atribute categoricale echivalente 𝐴<𝑣𝑖,
care pot lua doar două valori: 𝑎𝑑𝑒𝑣ă𝑟𝑎𝑡 (T) atunci când 𝐴<𝑣𝑖şi 𝑓𝑎𝑙𝑠 (F) în caz
contrar. Atributele create în acest fel se numesc pseudo-atribute şi sunt tratate de
către algoritmul TDIDT la fel ca şi atributele categoricale iniţiale.
38)Cumsepoatetrataproblemaexistențeiconflictelorîndatele
deantrenament(cazulneadecvăriidatelor)?
Sintagma date neadecvate se referă la date de antrenament în care cel puţin două
instanţe au atribute egale, dar clasificări diferite: se mai spune că există conflicte în
date. Deoarece una din cerinţele de funcţionare a algoritmului TDIDT se referă la
îndeplinirea condiţiei de adecvare a datelor, în cele ce urmează vom enumera
strategiile utilizate în cazul în care această condiţie nu este îndeplinită.
39)Explicațiabordareapre–pruning

În abordarea pre-pruning arborele de decizie este împiedicat să „crească“ prea


mult. Astfel, dacă pentru un nod intern (care nu este nod terminal) s-a luat decizia
de stopare a creşterii (a divizării după valorile unui atribut) transformarea acestui
nod într-un nod terminal se poate realiza, de exemplu, aplicând tehnicile 2 sau 3 de
la secţiunea precedentă. În mod evident, aceste tăieri au ca efect creşterea erorii de
predicţie în datele de antrenament.
40)Explicațiabordareapost–pruning
În abordarea post-pruning arborele de decizie este lăsat să se dezvolte „natural“,
fără a realiza tăieri în timpul dezvoltării sale. Operaţia de pruning se realizează după
dezvoltarea sa completă de unde şi numele ei,
post-pruning. Sunt vizaţi pentru această operaţie subarborii în care nodurile lor
rădăcină au drept fii numai noduri terminale ale arborelui de decizie generat.
41)ExplicaţimoduldefuncţionarealalgoritmuluiK-means
Metoda 𝐾− means porneşte de la ideea naturală că un cluster reuneşte obiecte cu
grad mare de similaritate între ele, iar între obiectele situate în clusteri diferiţi există
un grad mare de disimilaritate. Din acest motiv
este natural să se considere că o partiţie care furnizează o structură de clusteri
acceptabilă este aceea care minimizează pe cât posibil distanţele dintre elementele
fiecărui cluster şi maximizează distanţele dintre elementele clusterilor diferiţi. 𝐾−
means este un algoritm reprezentativ pentru categoria clusterilor neierarhici.
42)Precizațidouădiferenţe importantedintrealgoritmiiK-meansșiK-medoids
Algoritmul K-medoids este o metoda inspirata de metoda k-means, dar mai robusta.
43)Cumsepotreprezentagrafic clusteriigenerațiprinmetodaK-
meansînspaţiidedimensiunep>3?
Reprezentarea grafică a clusterilor ca submulţimi de puncte în spaţiul
𝑝−dimensional este cea obişnuită, naturală, pentru 𝑝≤3, în timp ce pentru 𝑝>3
reprezentarea se face în raport cu primele două sau primele trei componente
principale.
44)Explicațiabordareaprinaglomerarepentrugenerareaclusterilorierarhici

Abordarea prin aglomerare este cea mai frecvent utilizată dintre ele. În acest caz
abordarea este de tip bottum-up (de jos în sus), adică se porneşte de la nivelul
observaţiilor 𝒙𝒊. Fiecare observaţie este considerată iniţial ca fiind un cluster, şi
deci se porneşte la drum cu 𝑛 clusteri. Ideea de bază este de a reuni la fiecare pas
cei doi clusteri care au cea mai mică disimilaritate (adică cea mai mică distanţă)
dintre ei.
45)Dațiexemplededistanțedintreclusterifrecventutilizateîngenerareaclusterilorierarhici
Distanţa Single Linkage (SL) pentru doi clusteri 𝐺 şi 𝐻

Distanţa Complet Linkage (CL) pentru doi clusteri 𝐺 şi 𝐻

Distanţa Group Average (GA) pentru doi clusteri 𝐺 şi 𝐻

46)Explicațiabordareaprindivizarepentrugenerareaclusterilorierarhici
În metoda bazată pe divizare este utilizată abordarea top-down (de sus în jos) şi se
porneşete la drum cu toate observaţiile incluse într-un cluster. Acesta se divide în
doi clusteri distincţi, selectaţi astfel încât să aibă disimilaritatea cea mai mare dintre
toate perechile de clusteri posibili. Procedeul se aplică recursiv pentru fiecare cluster
obţinut şi necesită, ca şi în cazul metodei bazate pe aglomerare, tot 𝑛−1 paşi.

47)Explicațigraficuldendrogrameișirolulacesteiaînluareadeciziilorpentruidentificarea
corectăaclusterilor
Rezultatul după 𝑛−1 paşi este clusterul care include toate observaţiile structurate
într-o ierarhie de clusteri reprezentată cu ajutorul arborelui numit dendrogramă. Un
exemplu de dendrogramă sunt nodurile terminale (sau frunzele) dendrogramei
semnifică observaţiile şi sunt reprezentate pe orizontală la înălţimea zero. Distanţele
dintre ele, pe orizontală, nu au nici o semnificaţie. Nodul rădăcină reprezintă
totalitatea observaţiilor, iar celelalte noduri (nodurile interne) reprezintă clusterii
posibili. Înălţimea unui nod (care se poate citi pe rigla verticală) este proporţională
cu disimilaritatea dintre cei doi clusteri fii ai acestui nod.
48)Careesteroluldatelor deantrenament,devalidareșitest,în DataMining?

- Date de antrenament, care se folosesc la construcţia modelului de învăţare;


- Date de validare, care sunt utilizate pentru selectarea celui mai “bun“ model;
- Date de test utilizate pentru evaluarea performanţei modelului selectat.
49)Caresuntproporțiileutilizatefrecventîndivizareadatelordisponibileîndatedeantrenament,
devalidareșidetest?

- date de antrenament 60%, date de validare 20%, date de test 20%;

- date de antrenament 50%, date de validare 25%, date de test 25%;

- date de antrenament 50%, date de test 50%


50)Explicațiprincipiulmetodeik-foldcross-validation

Ideea metodei 𝑘-fold cross-validation (validare încrucişată) este de a împărți aleator


cele 𝑛 instanţe disponibile în 𝑘 părți aproximativ egale, de a construi modelul cu
𝑘−1 din părți și de a-l testa pe datele din partea nefolosită la construcția modelului,
obținându-se estimația indicatorului de performanță. Se repetă procedeul cu fiecare
din cele 𝑘 părți, iar cele k valori ale indicatorului se combină într-o estimaţie finală
a performanţei, după o formulă specifică tipului de model utilizat (de regresie sau
de clasificare).
51)Explicați principiul metodei n-fold cross-validationși contextul în care este
recomandatăfolosireaei
Metoda 𝑛-fold cross-validation este cazul particular al metodei 𝑘 -fold cross-
validation pentru 𝑘=𝑛. Pentru că la fiecare pas n-1 înregistrări sunt folosite pentru
construcţia modelului, iar o instanţă este dată de-o parte pentru testarea
modelului, metoda este cunoscută şi sub numele de metoda leave-one-out.
Deoarece necesită generarea şi testarea a 𝑛 modele, metoda este o variantă
preferată atunci când numărul 𝑛 al datelor disponibile este mic. Un avantaj
evident al metodei constă în faptul că modelul beneficiază pentru construcţie de
un număr mare de înregistrări (𝑛 −1 din cele 𝑛 disponibile).

52)Enumerațicâțivaindicatoripentruevaluareamodelelorderegresie
- Riscul empiric sau eroarea de antrenament
- Eroarea medie absolută MAE
- Coeficientul de determinare 𝑅2
- Eroarea medie pătratică RMSE
53)Deceexistășivarianteajustatealeunorindicatoripentruevaluareamodelelorderegresie?
Variantele ajustate au fost definite din cauza gadului de complexitate al modelului (numarul de
atribute sau variabile regresoare) care influenteaza corectitudinea indicatorilor prezentati.
Adaugarea in model a unor variabile conduce la diminuarea riscului empiric si la cresterea valorii
coeficientului de determinare.
54)Ceavantajare estimatorulgeneralizatdevalidareîncrucişatăe𝑒̂𝑝𝐺𝐶𝑉față deestimatorulde
validareîncrucişată e𝑒̂𝑝𝐶𝑉 ?
Avantajul estimatorului generalizat de validarea incrucisata epGCV este dat de timpul mai scurt de
rezolvare. Acesta necesita doar o singura rezolvare a modelului de regresie liniara.