Documente Academic
Documente Profesional
Documente Cultură
Acum, ce este exact un algoritm de regresie liniară? Regresia liniară este practic un
algoritm de învățare supravegheat care este folosit pentru a prezice o variabilă dependentă
continuă y pe baza valorilor variabilei independente x. Lucrul important de remarcat aici este că
variabila dependentă y, variabila pe care încercați să o preziceți, va fi întotdeauna o variabilă
continuă. Dar variabila independentă x, care este practic variabilele predictoare, acestea sunt
variabilele pe care le vei folosi pentru a prezice variabila de ieșire, care nu este altceva decât
variabila dependentă. Deci variabilele tale independente sau variabilele predictive pot fi fie
continue, fie discrete. Bine, nu există o astfel de restricție aici. Bine, pot fi fie variabile continue,
fie pot fi variabile discrete.
Acum, din nou, vă voi spune ce este o variabilă continuă, în cazul în care ați uitat. Este o
variantă care are un număr infinit de posibilități. Așa că vă voi da un exemplu de greutate a unei
persoane. Poate fi de 160 de kg, sau pot cântări 160,11 de kg, sau 160,1134 de kg și așa mai
departe. Deci numărul de posibilități pentru greutate este nelimitat și exact asta este o variabilă
continuă. Acum, pentru a înțelege regresia liniară, să presupunem că doriți să preziceți prețul
unui stoc într-o perioadă de timp. Pentru o astfel de problemă, puteți folosi regresia liniară
pornind relația dintre variabila dependentă, care este prețul acțiunilor, și variabila independentă,
care este timpul. Încercați să preziceți prețul acțiunilor într-o perioadă de timp. Deci, practic, veți
verifica cum variază prețul unui stoc într-o perioadă de timp. Deci prețul acțiunilor va fi variabila
dependentă sau variabila de ieșire, iar timpul va fi variabila predictor sau variabila independentă.
Variabila ta dependentă este variabila ta de ieșire. Bine, variabila independentă este variabila de
intrare sau variabila predictor. Deci, în cazul nostru, prețul acțiunilor este evident o cantitate
continuă, deoarece prețul acțiunilor poate avea un număr infinit de valori. Acum, primul
pas în regresia liniară este întotdeauna să stabiliți o relație între variabila dvs. dependentă și cea
independentă, folosind lungimea liniară cea mai potrivită. Presupunem că variabila dvs.
dependentă și independentă este liniar legată una de cealaltă.
O numim regresie liniară deoarece ambele variabile variază liniar, ceea ce înseamnă că
prin reprezentarea grafică a relației dintre aceste două variabile, vom obține mai mult o linie
dreaptă, în loc de una curbată. Să discutăm despre matematica din spatele regresiei liniare. Deci,
această ecuație de aici, denotă relația dintre variabila ta independentă x, care este aici, și variabila
ta dependentă y. Aceasta este variabila pe care încerci să o prezici. Ecuația pentru o linie liniară
în matematică este y egal cu mx plus c. Deci ecuația pentru o dreaptă liniară în matematică este y
egal cu mx plus c. În mod similar, ecuația de regresie liniară este reprezentată de-a lungul
aceleiași linii. Bine, y este egal cu mx plus c. Sunt doar câteva modificări, despre care vă voi
spune. Să înțelegem corect această ecuație. Deci, practic, y reprezintă variabila ta dependentă pe
care o vei prezice. B nimic nu este interceptarea y. Acum, interceptarea nu este altceva decât
acest punct aici. Acum, în acest grafic, arăți practic relația dintre variabila ta dependentă y și
variabila ta independentă x. Acum aceasta este relația liniară dintre aceste două variabile. Bine,
acum interceptarea ta este practic punctul de pe linie care începe la axa y. Acesta este y
interceptor, care este reprezentat de B nimic. Acum B one sau beta este panta acestei linii, acum
panta poate fi fie negativă, fie pozitivă, în funcție de relația dintre variabila dependentă și cea
independentă. Următoarea variabilă pe care o avem este x. X reprezintă aici variabila
independentă care este utilizată pentru a prezice variabila de ieșire rezultată. Practic, x este
folosit pentru a prezice valoarea lui y. E aici denotă eroarea în calcul. De exemplu, aceasta este
linia reală, iar aceste puncte reprezintă aici valorile prezise. Acum, distanța dintre acestea două
este indicată de eroarea de calcul. Deci aceasta este întreaga ecuație.
Regresia liniară va desena practic o relație între intrarea dvs. și variabila dvs. de intrare.
Așa a fost regresia liniară simplă. Acum, pentru a înțelege mai bine regresia liniară, voi rula o
demonstrație în Python.
Part 3- Arbori de decizie
Acum următorul algoritm despre care voi vorbi este arborele de decizie. Arborele de
decizie este unul dintre algoritmii mei preferați, pentru că este foarte simplu de înțeles cum
funcționează. Deci, înainte de asta, am discutat despre regresia liniară, care era un algoritm de
regresie. Apoi am discutat despre regresia logistică, care este un algoritm de clasificare. Acum
discutăm despre arborele de decizie, care este din nou un algoritm de clasificare. Deci, ce este
mai exact un arbore de decizie? Acum, un arbore de decizie este, din nou, un algoritm de
învățare automată supravegheat care arată ca un arbore inversat în care fiecare nod reprezintă o
variabilă predictor, iar legătura dintre nod reprezintă o decizie, iar fiecare nod frunză reprezintă
un rezultat. Acum știu că este puțin confuz, așa că permiteți-mi să vă fac să înțelegeți ce este un
arbore de decizie cu ajutorul unui exemplu.
Să presupunem că ai găzduit o petrecere uriașă și vrei să știi câți din invitații tăi sunt non-
vegetarieni. Deci, pentru a rezolva această problemă, puteți crea un arbore decizional simplu.
Acum, dacă te uiți la această cifră de aici, am creat un arbore de decizie care clasifică un oaspete
fie vegetarian, fie non-vegetarian. Ultimul nostru rezultat aici este non-vegetarian sau vegetarian.
Deci aici înțelegeți că acesta este un algoritm de clasificare, deoarece aici preziceți o valoare
categorică. Fiecare nod de aici reprezintă o variabilă predictor. Deci mâncatul de pui este o
variabilă, mâncatul de oaie este o variabilă, fructele de mare este o altă variabilă. Deci, fiecare
nod reprezintă o variabilă predictor care vă va ajuta să concluzionați dacă un oaspete este sau nu
non-vegetarian. Acum, pe măsură ce traversați copacul, veți lua decizii pentru fiecare nod până
când ajungeți în fundătură.
Deci, să presupunem că avem un nou punct de date. Acum o vom trece prin arborele de
decizie. Prima variabilă este că oaspetele a mâncat puiul? Dacă da, atunci este un non-vegetarian.
Dacă nu, atunci o veți trece la următoarea variabilă, care este oaspetele a mâncat carne de oaie?
Dacă da, atunci este un non-vegetarian. Dacă nu, atunci o veți trece la următoarea variabilă, care
este fructele de mare. Dacă a mâncat fructe de mare, atunci nu este vegetarian. Dacă nu, atunci
este vegetarian. Așa funcționează un arbore de decizie. Este un algoritm foarte simplu pe care îl
puteți înțelege cu ușurință. Are litere trase, ceea ce este foarte ușor de înțeles. Acum să înțelegem
structura unui arbore de decizie.
Tocmai v-am arătat un exemplu despre cum funcționează arborele de decizie. Acum,
permiteți-mi să iau același exemplu și să vă spun structura pentru arborele de decizie. Deci, în
primul rând, avem ceva cunoscut sub numele de nodul rădăcină. Nodul rădăcină este punctul de
plecare al unui arbore de decizie. Aici veți efectua prima împărțire și o veți împărți în alte două
noduri sau alte trei noduri, în funcție de declarația problemei dvs. Deci, cel mai mare nod este
cunoscut sub numele de nodul rădăcină. Acum, despre nodul rădăcină, nodul rădăcină este
atribuit unei variabile care este foarte semnificativă, ceea ce înseamnă că acea variabilă este
foarte importantă în prezicerea rezultatului. Deci atribuiți o variabilă care credeți că este cea mai
semnificativă la nodul rădăcină. După aceea, avem ceva cunoscut sub numele de noduri interne.
Deci fiecare nod intern reprezintă un punct de decizie care duce în cele din urmă la ieșire.
Nodurile interne vor avea alte variabile predictoare. Fiecare dintre acestea nu reprezintă nimic
predictor. Tocmai am făcut din asta o întrebare, altfel acestea sunt doar variabile predictoare.
Acestea sunt noduri interne. Nodurile terminale, cunoscute și sub denumirea de nodul frunză,
reprezintă clasa finală a variabilei de ieșire, deoarece acestea sunt practic rezultatele dvs., non-
vegetale și vegetariene.
Ramurile nu sunt altceva decât conexiuni între noduri. Aceste conexiuni sunt legături
între fiecare nod cunoscut ca o ramură și sunt reprezentate de săgeți. Deci, fiecare ramură va
avea un răspuns la ea, fie da sau nu, adevărat sau fals, unu sau zero și așa mai departe. Bine.
Deci, aceasta este structura unui arbore de decizie. Acum să trecem mai departe și vom înțelege
cum funcționează algoritmul arborelui de decizie. Acum există multe modalități de a construi un
arbore de decizie, dar mă voi concentra pe ceva cunoscut sub numele de algoritmul ID3. Acesta
este una dintre modalitățile prin care puteți construi arborele de decizie. ID3 reprezintă
algoritmul Iterative Dichotomiser 3, care este unul dintre cei mai eficienți algoritmi utilizați
pentru a construi un arbore de decizie. Folosește conceptele de entropie și câștig de informații
pentru a construi un arbore de decizie. Acum nu trebuie să știți ce este exact algoritmul ID3. Este
doar un concept din spatele construirii unui arbore de decizie. Acum algoritmul ID3 are
aproximativ șase pași definiți pentru a construi un arbore de decizie.
Deci, primul pas este să selectați cel mai bun atribut. Acum ce vrei să spui prin cel mai
bun atribut? Deci, atributul nu este altceva decât variabila predictor de aici. Deci, veți selecta cea
mai bună variabilă de predicție. Să-l numim A. După aceea, veți atribui acest A ca variabilă de
decizie pentru nodul rădăcină. Practic, veți atribui această variabilă predictor A la nodul
rădăcină. În continuare, ceea ce vei face este pentru fiecare valoare a lui A, vei construi un
descendent al nodului. Acum, acești trei pași, să ne uităm la asta cu exemplul anterior. Acum,
aici, cel mai bun atribut este să mănânci pui. Bine, aceasta este cea mai bună variabilă a mea de
atribut de aici. Așa că am ales acel atribut. Și care este următorul pas? Pasul doi a fost atribuit ca
o variabilă de decizie. Așa că am atribuit eat chick ca variabilă de decizie la nodul rădăcină.
Acum s-ar putea să vă întrebați de unde știu care este cel mai bun atribut. Îți voi explica toate
astea peste un timp. Deci, ceea ce am făcut a fost că am atribuit acest alt nod rădăcină. După
aceea, pasul numărul trei spune pentru fiecare valoare a lui A, construiți un descendent al
nodului. Deci, pentru fiecare valoare a acestei variabile, construiți un nod descendent. Deci,
această variabilă poate lua două valori, da și nu. Deci, pentru fiecare dintre aceste valori,
construiesc un nod descendent. Pasul numărul patru, atribuiți etichete de clasificare nodului
frunză. Nodului tău de frunze, am atribuit clasificarea una ca non-veg, iar celălalt este vegetal.
Acesta este pasul numărul patru. Pasul numărul cinci este dacă datele sunt clasificate corect,
atunci te oprești la asta. Cu toate acestea, dacă nu este, atunci continuați să repetiți peste arbore și
continuați să schimbați poziția variabilelor predictoare în arbore sau schimbați și nodul rădăcină
pentru a obține rezultatul corect. Așa că acum permiteți-mi să răspund la această întrebare. Care
este cel mai bun atribut? Ce înțelegeți prin cel mai bun atribut sau cea mai bună variabilă de
predicție? Acum, cel mai bun atribut este cel care separă datele în diferite clase, cel mai eficient,
sau este practic o caracteristică care împarte cel mai bine setul de date. Acum următoarea
întrebare din capul tău trebuie să fie cum decid ce variabilă sau care caracteristică împarte cel
mai bine datele. Pentru a face acest lucru, există două măsuri importante.
Există ceva cunoscut sub numele de câștig de informații și există ceva cunoscut sub
numele de entropie. Acum, pentru a înțelege câștigul de informații și entropia, ne uităm la o
enunțare simplă a problemei. Aceste date reprezintă viteza unei mașini pe baza anumitor
parametri. Deci, declarația noastră de problemă aici este să studiem setul de date și să creăm un
arbore de decizie care clasifică viteza mașinii ca fiind lentă sau rapidă. Deci variabilele noastre
de predicție aici sunt tipul drumului, obstacolul și limita de viteză și/sau variabila de răspuns, sau
variabila noastră de ieșire este viteza. Deci, vom construi un arbore de decizie folosind aceste
variabile pentru a prezice viteza mașinii. Acum, așa cum am menționat mai devreme, trebuie să
începem prin a decide o variabilă care împarte cel mai bine setul de date și să atribuim acea
variabilă particulară nodului rădăcină și să repetam același lucru și pentru alte noduri. Deci,
primul pas, așa cum am discutat mai devreme, este să selectați cel mai bun atribut A. Acum, de
unde știți care variabilă separă cel mai bine datele? Variabila cu cel mai mare câștig de informații
derivă cel mai bine datele în clasele de ieșire dorite. În primul rând, vom calcula două măsuri.
Vom calcula entropia și câștigul de informații. Acum, aici vă știe ce este exact entropia și ce este
exact câștigul de informații. Acum, entropia este folosită practic pentru a măsura impuritatea sau
incertitudinea prezentă în date. Este folosit pentru a decide modul în care un arbore de decizie
poate împărți datele. Câștigul de informații, pe de altă parte, este cea mai semnificativă măsură
care este utilizată pentru a construi un arbore de decizie. Indică câte informații ne oferă o
anumită variabilă despre rezultatul final. Prin urmare, câștigul de informații este important,
deoarece este folosit pentru a alege o variabilă care împarte cel mai bine datele la fiecare nod
pentru un arbore de decizie. Acum variabila cu cel mai mare câștig de informații va fi folosită
pentru a împărți datele la nodul rădăcină. Acum, în setul nostru de date, există patru observații.
Deci, ceea ce vom face este să începem prin a calcula entropia și câștigul de informații
pentru fiecare dintre variabilele de predicție. Deci vom începe prin a calcula câștigul de
informații și entropia pentru variabila tip drum. În setul nostru de date, puteți vedea că există
patru observații. Există patru observații în coloana tip drum, care corespunde celor patru etichete
din coloana viteză. Deci vom începe prin a calcula câștigul de informații al nodului părinte.
Nodul părinte nu este altceva decât viteza nodului de îngrijire. Aceasta este variabila noastră de
ieșire, corect? Va fi folosit pentru a arăta dacă viteza mașinii este lentă sau rapidă. Deci, pentru a
afla câștigul de informații al vitezei variabilei mașinii, vom parcurge câțiva pași. Acum știm că
există patru observații în acest nod părinte. În primul rând, avem lent. Apoi, din nou avem lent,
rapid și rapid. Acum, din aceste patru observații, avem două clase. Deci două observații aparțin
clasei lente, iar două observații aparțin clasei rapide. Așa se calculează P lent și P rapid. P slow
este nimic după fracția rezultatelor lente din nodul părinte, iar P rapid este fracția rezultatelor
rapide din nodul părinte. Și formula pentru a calcula P lent este numărul de rezultate lente din
nodul părinte împărțit la numărul total de rezultate. Deci numărul de rezultate lente în nodul
părinte este de două, iar numărul total de rezultate este de patru. Avem în total patru observații.
Deci, așa obținem P de lent ca 0,5. În mod similar, pentru P de rapid, veți calcula numărul
de rezultate rapide împărțit la numărul total de rezultate. Deci, din nou, doi câte patru, veți obține
0,5. Următorul lucru pe care îl veți face este să calculați entropia acestui nod. Deci, pentru a
calcula entropia, aceasta este formula. Tot ce trebuie să faceți este să înlocuiți valoarea, va trebui
să înlocuiți valoarea din această formulă. Deci P de lent înlocuim ca 0,5. În mod similar, P rapid
ca 0,5. Acum, când înlocuiți valoarea, veți obține un răspuns de unul. Deci entropia nodului
părinte este una. Deci, după calcularea entropiei nodului părinte, vom calcula câștigul de
informații al nodului copil. Acum, băieți, amintiți-vă că, dacă câștigul de informații al variabilei
tip drum este mare decât câștigul de informații al tuturor celorlalte variabile predictoare, doar
atunci nodul rădăcină poate fi divizat folosind variabila tip drum. Deci, pentru a calcula câștigul
de informații al variabilei tip drum, mai întâi trebuie să împărțim nodul rădăcină cântând
variabila tip drum. Facem asta doar pentru a verifica dacă variabila tip drum ne oferă informații
maxime despre o dată. Bine, deci dacă observați că tipul de drum are două rezultate, are două
valori, fie abrupte, fie plat. Acum reveniți la setul nostru de date. Deci, aici ceea ce puteți
observa este ori de câte ori tipul de drum este abrupt, așa că mai întâi ceea ce vom face este să
verificăm valoarea vitezei pe care o obținem atunci când tipul de drum este abrupt. Deci, în
primul rând, observația. Vedeți că ori de câte ori tipul de drum este abrupt, obțineți o viteză
lentă. În mod similar, în a doua observație, când tipul de drum este abrupt, veți obține din nou o
valoare a lent. Dacă tipul de drum este plat, veți obține o observație rapidă. Și din nou, dacă este
abruptă, există o valoare a rapidului. Deci, pentru trei valori abrupte, avem lent, lent și rapid. Și
când tipul de drum este plat, vom obține un rezultat rapid. Exact asta am făcut în acest arbore de
decizie. Deci, ori de câte ori tipul de drum este abrupt, veți deveni lent, încet sau rapid. Și ori de
câte ori tipul de drum este plat, vei ajunge rapid. Acum, entropia părții din dreapta este zero.
Entropia nu este altceva decât incertitudinea. Nu există nicio incertitudine aici. Pentru că de
îndată ce vezi că tipul de drum este plat, ieșirea ta este rapidă. Deci nu există incertitudine. Dar
când tipul de drum este abrupt, puteți avea oricare dintre următoarele rezultate, fie viteza va fi
lentă, fie poate fi rapidă. Deci, veți începe prin a calcula entropia RHS și LHS a arborelui de
decizie. Deci, entropia pentru nodul copil din partea dreaptă va fi zero, deoarece nu există nicio
incertitudine aici. Imediat, dacă vezi că tipul de drum este plat, viteza mașinii va fi mare.
Bine, deci nu există nicio incertitudine aici și, prin urmare, entropia ta devine zero.
Acum, entropia pentru partea stângă este că va trebui din nou să calculăm fracția de P lent și
fracția de P rapid. Deci din trei observații, în două observații avem lent. De aceea avem doi câte
trei aici. În mod similar pentru P fast, avem un P fast împărțit la numărul total de observații care
sunt trei. Deci, din aceste trei, avem două încetini și unul rapid. Când calculați P lent și P rapid,
veți obține aceste două valori. Și atunci când înlocuiți entropia în această formulă, veți obține
entropia ca 0,9 pentru variabila tip drum. Sper că toți înțelegeți acest lucru. Voi trece din nou
prin asta. Deci, practic, aici calculăm câștigul de informații și entropia pentru variabila tip drum.
Ori de câte ori luați în considerare tipul de drum variabil, există două valori, abrupt și plat. Și ori
de câte ori valoarea pentru tipul de drum este abruptă, veți obține oricare dintre aceste trei
rezultate, fie că veți deveni lent, lent sau rapid. Și când tipul de drum este plat, rezultatul va fi
rapid. Acum, deoarece nu există nicio incertitudine atunci când tipul de drum este plat, veți
obține întotdeauna un rezultat rapid. Aceasta înseamnă că aici entropia este zero, sau valoarea
incertitudinii aici este zero. Dar aici, există multă incertitudine. Deci, ori de câte ori tipul de
drum este abrupt, ieșirea poate fi fie lentă, fie rapidă. Deci, în sfârșit, obțineți Python ca 0.9. Deci
pentru a calcula câștigul de informații al variabilei tip drum. Trebuie să calculați media
ponderată. Îți voi spune de ce. Pentru a calcula câștigul de informații, trebuie să cunoașteți
entropia părintelui, pe care o calculăm ca una, minus media ponderată în entropia copiilor. Bine.
Deci, pentru această formulă, trebuie să calculați toate aceste valori. Deci, în primul rând, trebuie
să calculați entropia mediei ponderate. Acum, numărul total de rezultate din nodul părinte pe
care l-am văzut a fost de patru. Numărul total de rezultate în nodul copil stâng a fost de trei. Și
numărul total de rezultate în nodul copil drept a fost unul. Pentru a verifica acest lucru cu dvs.,
numărul total de rezultate din nodul părinte este de patru. Unu, doi, trei și patru. Venind la nodul
copil, care este tipul de drum, numărul total de rezultate din partea dreaptă a nodului copil este
unul. Și numărul total de rezultate din partea stângă a nodului copil este de trei. Exact asta am
scris aici. Bine, sper că ați înțeles cu toții aceste trei valori. După aceea, tot ce trebuie să faceți
este să înlocuiți aceste valori în această formulă. Deci, când faci asta, vei obține entropia copiilor
cu media ponderată va fi în jur de 0,675.
Acum înlocuiți doar valoarea din această formulă. Deci, dacă calculați câștigul de
informații al variabilei tip drum, veți obține o valoare de 0,325. Acum, folosind aceeași metodă,
veți calcula câștigul de informații pentru fiecare dintre variabilele de predicție, pentru tipul de
drum, pentru obstacol și pentru limita de viteză. Acum, când urmați aceeași metodă și calculați
câștigul de informații, veți obține aceste valori. Acum, ce denotă acest câștig de informații pentru
tipul de drum egal cu 0,325? Acum, valoarea 0,325 pentru tipul de drum indică faptul că obținem
foarte puțin câștig de informații din această variabilă de tip de drum. Și pentru obstrucție, avem
literalmente un câștig de informații de zero. În mod similar, informațiile obținute pentru limita de
viteză sunt una. Aceasta este cea mai mare valoare pe care o avem pentru obținerea de informații.
Aceasta înseamnă că va trebui să folosim variabila limită de viteză la nodul nostru rădăcină
pentru a împărți setul de date. Așa că, băieți, nu vă confundați cu ce variabilă vă oferă câștigul
maxim de informații. Variabila respectivă trebuie aleasă la nodul rădăcină. Deci, de aceea avem
nodul rădăcină ca limită de viteză. Deci, dacă ați menținut limita de viteză, atunci veți merge
încet. Dar dacă nu ați menținut limita de viteză, atunci viteza mașinii dvs. va fi rapidă. Entropia
ta este literalmente zero, iar informațiile tale sunt una, ceea ce înseamnă că poți folosi această
variabilă la nodul rădăcină pentru a împărți setul de date, deoarece limita de viteză vă oferă
câștigul maxim de informații.
Sper că acest caz de utilizare este clar pentru voi toți. Pentru a rezuma totul, o să vă repet
totul încă o dată. Deci, practic, aici vi s-a dat o declarație de problemă pentru a crea un arbore de
decizie care clasifică viteza unei mașini ca fiind lentă sau rapidă. Deci ți s-au dat trei variabile
predictoare și aceasta a fost variabila ta de ieșire. Informațiile obținute în entropie sunt practic
două măsuri care sunt utilizate pentru a decide ce variabilă va fi atribuită nodului rădăcină al
unui arbore de decizie. Bine. Deci băieți, de îndată ce vă uitați la setul de date, dacă comparați
aceste două coloane, adică limita de viteză și viteza, veți obține cu ușurință o ieșire. Înseamnă că
dacă menții limita de viteză, vei merge încet. Dar dacă nu menții limita de viteză, vei merge la un
post. Deci, aici în sine putem înțelege că limita de viteză nu are nicio incertitudine. Așa că de
fiecare dată când ți-ai menținut limita de viteză, vei merge încet și de fiecare dată când îți vei
menține limita de viteză, vei merge rapid. E la fel de simplu. Deci cum ai început? Deci ați
început prin a calcula entropia nodului părinte. Ați calculat entropia nodului părinte, care sa
redus la unul. Bine. După aceea, ați calculat câștigul de informații al fiecărui nod copil. Pentru a
calcula câștigul de informații al nodului copil, statistici calculând entropia părții din dreapta și
din partea stângă a arborelui de decizie. Bine. Apoi calculați entropia împreună cu media
ponderată. Înlocuiți aceste valori în formula câștig de informații și obțineți câștigul de informații
pentru fiecare dintre variabilele predictoare. Deci, după ce obțineți câștigul de informații al
fiecăreia dintre variabilele de predicție, verificați care variabilă vă oferă câștigul maxim de
informații și atribuiți acea variabilă nodului rădăcină. E la fel de simplu.
Partea 4- Algoritmi nesupravegheați +
K-means clustering
Part 5- AI vs MachineLearning vs
DeepLearning