Sunteți pe pagina 1din 36

Part 1- Introducere

Așadar, băieți, conceptul de inteligență artificială se întoarce la epocile clasice. În mitologia


greacă, conceptul de mașini și oameni mecanici era bine gândit. Deci, un exemplu în acest sens
este Talos. Nu știu câți dintre voi ați auzit de asta.
Talos a fost un războinic animat gigant din bronz care a fost programat să păzească insula Creta.
Acum acestea sunt doar idei. Nimeni nu știe dacă acest lucru a fost implementat, dar învățarea
automată și IA au fost gândite cu mult timp în urmă.
Acum să ne întoarcem la secolul al XIX-lea. Acum s-a speculat 1950 a fi unul dintre cei mai
importanți ani pentru introducerea inteligenței artificiale. În 1950, Alan Turing a publicat o
lucrare în care specula despre posibilitatea de a crea mașini care gândesc.
Așa că a creat ceea ce este cunoscut sub numele de testul Turing.Acest test este folosit practic
pentru a determina dacă un computer poate gândi inteligent sau nu ca o ființă umană. El a
remarcat că gândirea este dificil de definit și a conceput celebrul său test Turing.Deci, practic,
dacă o mașină poate duce o conversație care nu se poate distinge de o conversație cu o ființă
umană, era rezonabil să spunem că mașina gândește, adică mașina va trece testul Turing. Acum,
din păcate, până la această dată, nu am găsit o mașină care să fi trecut complet testul Turing.
Deci, testul Turing a fost de fapt prima propunere serioasă din filosofia inteligenței artificiale.
A urmat aceasta era 1951. Acesta a fost cunoscut și sub numele de jocul AI. Deci, în 1951,
folosind mașina Ferranti Mark 1 de la Universitatea din Manchester, un informatician cunoscut
sub numele de Christopher Strachey a scris un program de dame. Și, în același timp, a fost scris
și un program pentru șah. Acum, aceste programe au fost ulterior îmbunătățite și refăcute, dar
aceasta a fost prima încercare de a crea programe care ar putea juca șah sau care ar putea concura
cu oamenii în jocul de șah.
Acesta este urmat de anul 1956. Acum, acesta este probabil cel mai important anîn invenția AI.
Pentru că în 1956, pentru prima dată, a fost inventat termenul de inteligență artificială.În regulă.
Așadar, termenul de inteligență artificială a fost inventat de John McCarthy la conferința de la
Dartmouth în 1956. Începând cu anul 1959, a fost înființat primul laborator AI.
Această perioadă a marcat era cercetării pentru AI. Așadar, primul laborator de inteligență
artificială în care s-au efectuat cercetări este laboratorul MIT, care încă funcționează până în
prezent. În 1960, primul robot a fost introdus pe linia de asamblare General Motors. În 1961, a
fost inventat primul chatbot.
Acum avem Siri, avem Alexa. Dar în 1961, a existat un chatbot cunoscut sub numele de
Eliza,care a fost introdus. Acesta este urmat de faimosul IBM Deep Blue. În 1997, a apărut
vestea că Deep Blue de la IBM îl învinge pe campionul mondial, Garry Kasparov, în jocul de
șah. Deci aceasta a fost un fel de prima realizare a AI. A reușit să-l învingă pe campioana
mondială la șah.
Deci, în 2005, când a avut loc Marea Provocare DARPA, o mașină robotizată numită
Stanley,care a fost construit de echipa de curse din Stanford, a câștigat DARPA Grand
Challenge. Aceasta a fost o altă mare realizare a AI.
În 2011, sistemul IBM de răspunsuri la întrebări, Watson, i-a învins pe cei mai mari doi
campioni Jeopardy, Brad Rutter și Ken Jennings. Deci băieți, așa a evoluat AI. A început ca o
situație ipotetică. În prezent, este cea mai importantă tehnologie din lumea de astăzi. Dacă te uiți
peste tot în jur, totul în jurul nostru este condus prin învățarea profundă AI sau învățarea
automată.
Deci, de la apariția inteligenței artificiale în anii 1950, am văzut de fapt o creștere exponențială și
potențialul său. Deci, AI acoperă domenii precum învățarea automată, învățarea profundă,
rețelele neuronale, procesarea limbajului natural, sistemele bazate pe cunoștințe și așa mai
departe.
De asemenea, este introdusă în viziunea computerizată și procesarea imaginilor. Acum întrebarea
este dacă AI a fost aici de peste jumătate de secol, de ce a câștigat brusc atât de multă
importanță? De ce vorbim acum despre inteligența artificială?
Permiteți-mi să vă spun principalele motive pentru cererea de AI. Primul motiv este ceea ce
avem mai multă putere de calcul acum. Deci, inteligența artificială necesită multă putere de
calcul. Recent, s-au făcut multe progrese și sunt implementate modele complexe de învățare
profundă. Și una dintre cele mai bune tehnologii care a făcut acest lucru posibil sunt GPU-urile.
Deoarece avem mai multă putere de calcul acum, este posibil pentru noi să implementăm AI în
aspectele noastre zilnice. Al doilea cel mai important motiv este că avem o mulțime de date în
prezent. Generăm date într-un ritm incomensurabil.
Generam date prin intermediul rețelelor sociale, prin intermediul dispozitivelor IoT. În orice mod
posibil, există o mulțime de date.
Deci trebuie să găsim o metodă sau o soluție care să ne ajute să procesăm atât de multe date, și
ajută-ne să obținem informații utile, astfel încât să putem crește afacerea cu ajutorul datelor.
Bine, deci, acel proces este practic inteligență artificială. Deci, pentru a avea un agent AI util
pentru a lua decizii inteligente, cum ar fi să spui ce articol să recomanzi atunci când faci
cumpărături online, sau cum se clasifică un obiect dintr-o imagine. AI sunt antrenate pe seturi
mari de date, iar big data ne permite să facem acest lucru mai eficient. Următorul motiv este că
acum avem algoritmi mai buni.
În acest moment avem algoritmi foarte eficienți care se bazează pe ideea rețelelor
neuronale.Rețelele neuronale nu sunt altceva decât conceptul din spatele învățării profunde. Din
moment ce avem algoritmi mai buni
care poate face calcule mai bune și calcule mai rapide cu mai multă acuratețe, cererea pentru AI
a crescut.Un alt motiv este că universitățile, guvernele, startup-urile și giganții tehnologici
investesc cu toții în AI.Bine, deci companii precum Google, Amazon, Facebook, Microsoft, toate
aceste companii au investit foarte multîn inteligența artificială pentru că ei cred că AI este
viitorul. Deci AI crește rapid atât ca domeniu de studiuși, de asemenea, ca economie. Deci, de
fapt, acesta este momentul potrivit pentru a înțelege ce este AI și cum funcționează.
Deci haideți să mergem mai departe și să înțelegem ce este exact inteligența artificială. Termenul
de inteligență artificială a fost inventat pentru prima dată în anul 1956 de John McCarthy la
conferința de la Dartmouth.Am menționat deja asta înainte. A fost nașterea AI în 1956.
Acum, cum a definit el inteligența artificială? John McCarthy a definit AI drept știință și
ingineriede a face mașini inteligente. Cu alte cuvinte, inteligența artificială este teoria și
dezvoltarea sistemelor informaticecapabil să îndeplinească sarcini care necesită în mod normal
inteligență umană, cum ar fi percepția vizuală, recunoașterea vorbirii,luarea deciziilor și
traducerea între limbi. Deci băieți, într-un fel, AI este o tehnică de obținere a mașinilorsă lucreze
și să se comporte ca oameni. În restul trecutului, inteligența artificială a fost capabilă să realizeze
acest lucru prin crearea de mașini și roboți care au fost utilizați într-o gamă largă de domenii,
inclusiv asistență medicală, robotică, marketing, analize de afaceri și multe altele. Având în
vedere acest lucru, haideți să discutăm câteva aplicații reale ale AI, astfel încât să înțelegeți cât
de importantă este inteligența artificială în lumea de astăzi. Acum, una dintre cele mai cunoscute
aplicații al inteligenței artificiale este motorul de căutare predictiv Google. Când începeți să
introduceți un termen de căutare iar Google vă face recomandări din care să alegeți, adică
inteligența artificială în acțiune.
Prin urmare, căutările predictive se bazează pe datele pe care Google le colectează despre dvs.,
cum ar fi istoricul browserului dvs., locația dvs., vârsta dvs. și alte detalii personale. Deci,
folosind inteligența artificială, Google încearcă să ghicească ce ați putea încerca să găsiți. Acum,
în spatele acestui lucru, sunt implicate o mulțime de procesare a limbajului natural, învățare
profundă și învățare automată.
Vom discuta toate aceste concepte în diapozitivele ulterioare. Nu este foarte simplu să creezi un
motor de căutare, dar logica din spatele motorului de căutare Google este inteligența artificială.
Mergând mai departe, în sectorul financiar, Platforma Contract Intelligence a lui JP Morgan
Chase folosește învățarea automată, inteligența artificială, și software de recunoaștere a
imaginilor pentru analiza documentelor juridice. Acum permiteți-mi să vă spun că revizuirea
manuală aproximativ 12.000 de acorduri au durat peste 36.000 de ore.
Dar, de îndată ce această sarcină a fost înlocuită de o mașină AI, a reușit să facă acest lucru în
câteva secunde. Deci asta este diferența dintre inteligența artificială și munca manuală sau
umană. Chiar dacă AI nu poate gândi și raționa ca oamenii, dar puterea lor de calcul este foarte
puternică în comparație cu oamenii, deoarece algoritmul de învățare automată, concepte de
învățare profundă și procesare a limbajului natural, AI a ajuns la un stadiu în care poate calcula
cea mai complexă dintre problemele complexe în câteva secunde. Venind în domeniul sănătății,
IBM este unul dintre pionierii care a dezvoltat software AI, special pentru medicină. Permiteți-
mi să vă spun că peste 230 de organizații de asistență medicală utilizați tehnologia IBM AI, care
este în esență IBM Watson. În 2016, tehnologia IBM Watson a putut face referințe încrucișate 20
de milioane de înregistrări oncologice diagnostichează rapid și corect o leucemie rară starea la un
pacient.
Deci, practic a trecut prin 20 de milioane de înregistrări, ceea ce probabil a făcut-o într-o secundă
sau minute, max până la max. Și apoi a diagnosticat corect un pacient cu o leucemie rară. Știind
că mașinile sunt acum utilizate și în domeniile medicale, arată cât de importantă a devenit AI.
A ajuns în toate domeniile vieții noastre. Permiteți-mi să vă dau un alt exemplu. Doctorul AI de
la Google este o altă inițiativă, care este luată de Google, în care lucrează cu un lanț indian de
îngrijire a ochilor pentru a dezvolta un sistem de inteligență artificială care poate examina
scanările retinei și poate identifica o afecțiune numită retinopatie diabetică care poate provoca
orbire. Acum, pe platformele de social media precum Facebook, inteligența artificială este
folosită pentru verificarea feței, în care utilizați învățarea automată și conceptul de învățare
profundă pentru a detecta trăsăturile feței și a-ți eticheta prietenii. Toată caracteristica de
etichetare automată pe care o vedeți în Facebook, În spatele acestuia se află învățarea automată,
învățarea profundă, rețelele neuronale. În spate este doar AI.
Deci, de fapt, nu suntem conștienți că folosim AI foarte regulat în viața noastră. Toate
platformele de social media precum Instagram, Facebook, Twitter, se bazează foarte mult pe
inteligența artificială.
Un alt astfel de exemplu este AI-ul Twitter, care este folosit pentru a identifica orice fel de
discurs instigator la ură și limbi teroriste în tweet-uri. Deci, din nou, folosește înclinarea mașinii,
învățare profundă, procesare a limbajului natural pentru a filtra orice conținut ofensator sau care
poate fi raportat.
Acum, recent, compania a descoperit aproximativ 300.000 de conturi de linkuri teroriste iar 95%
dintre acestea au fost găsite de mașini inteligente artificiale non-umane. În ceea ce privește
asistenții virtuali, avem asistenți virtuali precum Siri și Alexa chiar acum. Permiteți-mi să vă
spun despre un alt asistent virtual Google recent lansat, numit Google Duplex, care a uimit
milioane de oameni din întreaga lume. Nu numai că poate răspunde la apeluri și rezervați
întâlniri pentru dvs., adaugă și o notă umană. Deci adaugă filtre umane și toate astea.
Face să sune foarte realist. De fapt, este foarte greu să faci distincția între om și AI care vorbește
la telefon.
O altă aplicație faimoasă este AI este mașinile cu conducere autonomă. Deci, inteligența
artificială implementează viziunea computerizată, detecție de imagini, învățare profundă, pentru
a construi mașini care pot detecta automat orice obiecte sau orice obstacol și conduceți fără
intervenție umană. Deci, acestea sunt mașini complet automatizate cu conducere autonomă.
De asemenea, Elon Musk vorbește mult despre modul în care AI este implementată în mașinile
Tesla cu conducere autonomă.
El a citat că Tesla va avea mașini complet autonome pregătite până la sfârșitul anului, și
versiunea robo taxi care poate transporta pasagerii fără nimeni la volan.
Deci, dacă te uiți la asta, AI este de fapt folosită de giganții tehnologiei. O mulțime de companii
gigantice tehnologice precum Google, Tesla, Facebook, toate aceste companii bazate pe date. De
fapt, Netflix folosește și AI. Deci, venim la Netflix.
Așadar, cu ajutorul inteligenței artificiale și a învățării automate, Netflix a dezvoltat o
recomandare de film personalizată
pentru fiecare dintre utilizatorii săi. Deci dacă fiecare dintre voi ați deschis Netflix și dacă vă
uitați la tipul de filme care vi se recomandă, sunt diferite. Acest lucru se datorează faptului că
Netflix studiază detaliile personale ale fiecărui utilizator și încearcă să înțeleagă ce interesează
fiecare utilizator și ce fel de modele de filme are fiecare utilizator și apoi le recomandă filme.
Prin urmare, Netflix folosește istoricul de vizionare al altor utilizatori cu gusturi similare pentru a
recomanda ceea ce ați putea fi cel mai interesat să vizionați în continuare, astfel încât să puteți
rămâne implicat și să vă continuați abonamentul lunar.
De asemenea, se știe că peste 75% din ceea ce vizionați este recomandat de Netflix.
Deci motorul lor de recomandare este genial. Și logica din spatele motorului lor de recomandare
este învățarea automată și inteligența artificială. În afară de Netflix, Gmail folosește și AI zilnic.
Dacă deschideți căsuța de e-mail chiar acum, veți observa că există secțiuni separate.
De exemplu, avem secțiunea principală, secțiunea socială și toate astea. Gmail are și o secțiune
separată numită e-mailuri spam.
Deci, ceea ce face Gmail este că folosește concepte de inteligență artificială și algoritmi de
învățare automată pentru a clasifica e-mailurile ca spam și non-spam. De multe ori anumite
cuvinte sau expresii sunt frecvent utilizate în e-mailurile spam. Dacă observați e-mailurile dvs.
de spam, acestea au cuvinte precum loterie, câștig, rambursare completă.
Toate acestea denotă că e-mailul este mai probabil să fie unul spam. Astfel de cuvinte și corelații
sunt înțelese prin utilizarea învățării automate și a procesării limbajului natural și a altor câteva
aspecte ale inteligenței artificiale.
Deci, băieți, acestea au fost aplicațiile comune ale inteligenței artificiale. Acum să discutăm
despre diferitele tipuri de AI.
Deci, IA este împărțită în trei etape evolutive diferite, sau puteți spune că există trei etape a
inteligenței artificiale. Desigur, avem inteligența artificială îngustă urmată de inteligența generală
artificială, iar aceasta este urmată de super inteligență artificială. Inteligența artificială îngustă,
care este cunoscută și sub numele de IA slabă, implică aplicarea inteligenței artificiale doar
pentru o anumită sarcină.
Deci, multe sisteme existente în prezent care pretind că folosesc inteligența artificială
funcționează de fapt ca o IA slabă concentrat pe o problemă specifică definită restrâns Permiteți-
mi să vă dau un exemplu de inteligență artificială îngustă.
Alexa este un exemplu foarte bun de AI slabă. Funcționează într-un interval nelimitat de funcții
predefinite. Nu există inteligență autentică sau nu există conștientizare de sine, în ciuda faptului
că este un exemplu sofisticat de IA slabă.
Motorul de căutare Google, umanoidul Sophia, mașini cu conducere autonomă și chiar faimosul
AlphaGo intră în categoria IA slabă. Deci băieți, chiar acum suntem în stadiul de inteligență
artificială îngustă sau AI slabă.
De fapt, nu am ajuns la inteligența generală artificială sau la super inteligența artificială, dar
haideți să vedem cum ar fi exact dacă am ajunge la inteligența generală artificială.
Acum, inteligența generală artificială, cunoscută și sub numele de IA puternică, implică mașini
care au capacitatea pentru a îndeplini orice sarcină inteligentă pe care o poate fi umană. Acum,
acesta este de fapt ceva de care mulți oameni nu își dau seama.
Mașinile nu posedă abilități asemănătoare omului. Au o unitate de procesare foarte puternică
care pot efectua calcule la nivel înalt, dar nu sunt încă capabili să facă simplu și cele mai
rezonabile lucruri pe care o ființă umană le poate. Dacă îi spui unei mașini să proceseze ca un
milion de documente, probabil că va face asta într-o chestiune de 10 secunde, sau un minut, sau
chiar 10 minute.
Dar dacă îi ceri unui aparat să meargă în camera ta de zi și să pornească televizorul, o mașină va
lua o veșnicie să învețe asta, pentru că mașinile nu au un mod rezonabil de a gândi.
Au o unitate de procesare foarte puternică, dar nu sunt încă capabili să gândească și să raționeze
ca o ființă umană.
Deci tocmai de aceea suntem încă blocați pe inteligența artificială îngustă. Până acum nu am
dezvoltat nicio mașină care poate fi numit pe deplin IA puternică, chiar dacă există exemple de
AlphaGo Zero care l-au învins pe AlphaGo în jocul Go.
AlphaGo Zero a învățat practic într-un interval de patru luni. A învățat de la sine, fără nicio
intervenție umană. Dar nici atunci, nu a fost clasificată drept o inteligență artificială complet
puternică, deoarece nu poate raționa ca o ființă umană.
Trecerea la super inteligența artificială. Acum, acesta este un termen care se referă la timp când
capacitățile unui computer le vor depăși pe cele ale unei ființe umane. În realitate, voi lua ceva
timp pentru noi pentru a obține super inteligență artificială. În prezent, este văzută ca o situație
ipotetică așa cum este descris în filme și în orice cărți științifico-fantastice în care mașinile au
cucerit lumea, filme precum Terminator și toate acestea descriu super inteligența artificială.
Acestea nu există încă, pentru care ar trebui să fim recunoscători, dar există o mulțime de oameni
care speculează acea super inteligență artificială va prelua lumea până în anul 2040. Deci băieți,
acestea au fost diferitele tipuri sau diferitele etape ale inteligenței artificiale.
Pentru a rezuma totul, așa cum am spus mai înainte, inteligența îngustă este singurul lucru care
există deocamdată.
Avem doar AI slabă sau inteligență artificială slabă. Toate tehnologiile AI majore pe care le
vedeți
sunt inteligența artificială îngustă. Nu avem mașini capabile să gândească ca ființele umane sau
raționând ca o ființă umană. Acum să trecem mai departe și să discutăm despre diferitele limbi
de programare pentru AI.
Deci, există de fapt N număr de limbaje care pot fi folosite pentru inteligența artificială. Am să
menționez câteva dintre ele.
Deci, mai întâi, avem Python. Python este probabil cel mai faimos limbaj pentru inteligența
artificială.
Este, de asemenea, cunoscut drept cel mai eficient limbaj pentru AI, deoarece mulți dezvoltatori
preferă să folosească Python.
Și mulți oameni de știință se simt confortabil cu limbajul Python. Acest lucru se datorează parțial
sintaxelor care aparțin lui Python sunt foarte simple și pot fi învățate foarte ușor. Este considerat
a fi unul dintre cele mai multe limba cea mai usor de invatat. Și, de asemenea, mulți alți
algoritmi AI și algoritmi de învățare automată poate fi implementat cu ușurință în Python,
deoarece există o mulțime de biblioteci care sunt funcții predefinite pentru acești algoritmi.
Deci tot ce trebuie să faci este să apelezi acea funcție. De fapt, nu trebuie să-ți apelezi algoritmul.
Deci, Python este considerat cea mai bună alegere pentru inteligența artificială. Cu Python se află
R, care este un limbaj de programare statistică.
Acum R este unul dintre cele mai eficiente limbaje și medii pentru analiza și manipularea datelor
în scop statistic. Este un limbaj de programare statistică. Deci folosind R putem produce cu
ușurință parcele de calitate a publicației bine concepute, inclusiv simbol și formulă matematică,
oriunde este necesar.
Dacă mă întrebați pe mine, cred că R este și unul dintre cele mai ușor de învățat limbaj de
programare. Sintaxa este foarte asemănătoare cu limba engleză, și are, de asemenea, un număr N
de biblioteci care acceptă statistici, știința datelor, AI, învățarea automată și așa mai departe.De
asemenea, are funcții predefinite pentru algoritmii de învățare automată, procesarea limbajului
natural și așa mai departe.
Deci R este, de asemenea, o alegere foarte bună dacă doriți să începeți cu limbaje de programare
pentru învățarea automată sau AI.În afară de aceasta, avem Java. Acum, Java poate fi considerat
o alegere bună pentru dezvoltarea AI.
Inteligența artificială are mult de-a face cu algoritmii de căutare, rețelele neuronale artificiale și
programarea genetică, și Java oferă multe beneficii. Este ușor de utilizat. Depanarea este foarte
ușoară, pachete de servicii.
Există lucru simplificat cu proiecte la scară largă. Există o interacțiune bună cu utilizatorul, și
reprezentarea grafică a datelor. Are ceva cunoscut sub numele de trusa de instrumente widget
standard, care poate fi folosit pentru realizarea de grafice și interfețe. Deci, virtualizarea grafică
este de fapt o parte foarte importantă a AI, sau a științei datelor sau a învățării automate.
Permiteți-mi să mai enumeram câteva limbi. Avem și ceva cunoscut sub numele de Lisp. Acum,
în mod șocant, mulți oameni nu au auzit de această limbă.Acesta este de fapt cel mai vechi și cel
mai potrivit limbaj pentru dezvoltarea inteligenței artificiale.
Este considerat a fi un limbaj foarte potrivit pentru dezvoltarea inteligenței artificiale.Acum,
permiteți-mi să vă spun că acest limbaj a fost inventat de John McCarthy, cunoscut și ca
părintele inteligenței artificiale.
El a fost persoana care a inventat termenul de inteligență artificială. Are capacitatea de a procesa
informații simbolice.
Are capabilități excelente de prototipare. Este ușor și creează obiecte dinamice cu multă
ușurință.Există colectarea automată a gunoiului în toate acestea. Dar de-a lungul anilor, din cauza
progreselor, multe dintre aceste caracteristici au migrat în multe alte limbi. Și de aceea mulți
oameni nu merg pe Lisp.Există o mulțime de limbi noi care au caracteristici mai eficiente sau
care au pachete mai bune pe care le puteți vedea.
O altă limbă despre care îmi place să vorbesc este Prolog. Prolog este folosit frecvent în baza de
cunoștințe și sisteme expert. Caracteristicile oferite de Prolog includ potrivirea modelelor,
structurarea datelor freebase, urmărire automată înapoi și așa mai departe. Toate aceste
caracteristici oferă un cadru de programare foarte puternic și flexibil.
Prolog este de fapt utilizat pe scară largă în proiecte medicale și, de asemenea, pentru proiectarea
sistemelor experte AI.În afară de asta, avem și C++, avem SaaS, avem JavaScript care poate fi
folosit și pentru AI.
Avem MATLAB, avem Julia. Toate aceste limbi sunt de fapt considerate limbi destul de bune
pentru inteligența artificială.
Dar deocamdată, dacă mă întrebați pe ce limbaj de programare ar trebui să merg, aș spune
Python.
Python are toate pachetele posibile și este foarte ușor de înțeles și ușor de învățat.
Deci, să ne uităm la câteva caracteristici ale Python. Putem vedea de ce ar trebui să alegem
Python.
În primul rând, Python a fost creat în anul 1989. Este de fapt un limbaj de programare foarte
ușor.
Acesta este unul dintre motivele pentru care mulți oameni preferă Python. Este foarte ușor de
înțeles. Este foarte ușor să înțelegi acest limbaj.
Deci, Python este un limbaj de programare de nivel înalt interpretat, orientat pe obiecte și poate
fi implementat foarte ușor.
Acum permiteți-mi să vă spun câteva caracteristici ale Python. Este foarte simplu și ușor de
învățat. După cum am menționat, este unul dintre cele mai ușoare limbaje de programare și, de
asemenea, este gratuit și open source. În afară de asta, este un limbaj de nivel înalt. Nu trebuie să
vă faceți griji în legătură cu alocarea memoriei. Este portabil, ceea ce înseamnă că îl poți folosi
pe orice platformă precum Linux, Windows, Macintosh, Solaris și așa mai departe. Suportă
diferite paradigme de programare precum programarea orientată pe obiecte și orientată pe
proceduri și este extensibilă, ceea ce înseamnă că poate invoca bibliotecile C și C++.
În afară de aceasta, permiteți-mi să vă spun că Python câștigă de fapt un impuls incredibil de
imens în AI.
Limbajul este folosit pentru a dezvolta algoritmi de știință a datelor, algoritmi de învățare
automată și proiecte IoT.
Celelalte avantaje pentru Python, de asemenea, faptul că nu trebuie să codificați prea mult atunci
când vine vorba de Python pentru AI sau învățare automată.
Acest lucru se datorează faptului că există pachete gata făcute. Există pachete predefinite care au
toate funcțiile și algoritmul stocate.
De exemplu, există ceva cunoscut sub numele de PiBrain, care poate fi folosit pentru învățarea
automată, NumPy care poate fi folosit pentru calcul științific, panda și așa mai departe. Există N
număr de biblioteci în Python. Deci băieți, acum voi intra în profunzimea Python.
Acum am să vă explic Python, deoarece această sesiune este despre inteligența artificială.
Așadar, aceia dintre voi care nu știți prea multe despre Python sau care sunt noi în Python, voi
lăsa câteva link-uri în caseta de descriere.
Cu toții puteți începe cu programarea și orice alte concepte sau orice alte îndoieli pe care le aveți
despre Python.
Avem mult conținut în jurul programării cu Python sau Python pentru învățarea automată și așa
mai departe.
Acum să trecem mai departe și să vorbim despre unul dintre cele mai importante aspecte ale
inteligenței artificiale, care este învățarea automată. Acum mulți oameni îmi pun mereu această
întrebare. Este învățarea automată și inteligența artificială
același lucru? Ei bine, ambele nu sunt același lucru. Diferența dintre AI și machine learning este
că învățarea automată este folosită în inteligența artificială. Învățarea automată este o metodă
prin care puteți alimenta o mulțime de date unei mașini și o puteți face să învețe. Acum AI este
un domeniu vast.
Sub AI, avem machine learning, avem NLP, avem sisteme expert, avem recunoaștere a imaginii,
detectarea obiectelor și așa mai departe. Avem și învățare profundă. Deci, AI este un fel de
proces sau este o metodologie în care faci ca mașinile să imite comportamentul ființelor umane.
Învățarea automată este o modalitate în care alimentați o mulțime de date unei mașini, astfel
încât aceasta să poată lua propriile decizii. Să intrăm în profunzime despre învățarea automată.
Deci, mai întâi, vom înțelege necesitatea învățării automate sau de ce a apărut învățarea
automată.
Acum, nevoia de învățare automată începe încă de la revoluția tehnică în sine. Deci, băieți, de
când tehnologia a devenit centrul tuturor, am generat o cantitate incomensurabilă de date.
Conform cercetării, generăm în jur 2,5 trilioane de octeți de date pentru fiecare dată în fiecare zi.
Și se estimează că până în acest an, 2020, 1,7 mb de date vor fi create în fiecare secundă pentru
fiecare persoană de pe pământ.
Deci, pe măsură ce vă vorbesc acum, generez o mulțime de date. Acum urmăriți acest videoclip
pe YouTube ține cont și de generarea datelor. Deci sunt date peste tot. Deci, cu disponibilitatea
atât de multe date,este în sfârșit posibil să se construiască modele predictive care pot studia și
analiza date complexe pentru a găsi informații utile și pentru a oferi rezultate mai precise. Deci,
companii de top precum Netflix și Amazon construiți astfel de modele de învățare automată
folosind tone de date pentru a identifica orice oportunitate profitabilă și evita orice risc nedorit.
Deci băieți, un lucru pe care trebuie să-l știți cu toții este că cel mai important lucru pentru
inteligența artificială sunt date. Pentru inteligența artificială sau fie că este vorba de învățare
automată sau de învățare profundă, sunt întotdeauna date.
Și acum că avem o mulțime de date, putem găsi o modalitate de a analiza, procesa și extrage
informații utile din aceste date
pentru a ne ajuta să dezvoltăm afaceri sau să găsim soluții la unele probleme.
Datele sunt soluția. Trebuie doar să știm cum să gestionăm datele. Și modul de a gestiona datele
este prin învățarea automată, învățarea profundă și inteligența artificială. Câteva motive pentru
care învățarea automată este atât de importantă este, numărul unu, datorită creșterii generării de
date. Deci, din cauza producției excesive de date, trebuie să găsim o metodă care să poată fi
utilizată pentru a structura, analiza și extrage informații utile din date, aici intervine învățarea
automată.
Este folosit pentru a rezolva probleme și a găsi soluții prin cele mai complexe sarcini cu care se
confruntă organizațiile.
În afară de aceasta, mai trebuia să îmbunătățim procesul decizional. Deci, folosind diverși
algoritmi,
Învățarea automată poate fi folosită pentru a lua decizii de afaceri mai bune. De exemplu,
învățarea automată este folosită pentru a concentra vânzările.
Este folosit pentru a prezice orice scădere a pieței de valori sau pentru a identifica orice fel de
risc și anomalii.
Alte motive includ faptul că învățarea automată ne ajută să descoperim modele și tendințe în
date.
Așadar, găsirea de modele ascunse și extragerea de informații cheie din date este cea mai
importantă parte a învățării automate.
Deci, construind modele predictive și folosind tehnici statistice, învățarea automată vă permite să
săpați sub suprafață și explodați datele la o scară de minut. Înțelegerea datelor și extragerea
manuală a modelelor ia mult timp. Ne vor dura câteva zile pentru a extrage orice informații utile
din date.
Dar dacă utilizați algoritmi de învățare automată, puteți efectua calcule similare în mai puțin de o
secundă.
Un alt motiv este că trebuie să rezolvăm probleme complexe. Deci de la detectarea genelor legat
de boala mortală ALS, de construirea de mașini cu conducere autonomă, poate fi folosită
învățarea automată pentru a rezolva cele mai complexe probleme. În prezent, am găsit și o
modalitate de a observa stelele care sunt la 2.400 de ani lumină distanță de planeta noastră. Bine,
toate acestea sunt posibile prin AI, învățarea automată, învățarea profundă și aceste tehnici. Deci,
pentru a rezuma, învățarea automată este foarte importantă în prezent pentru că ne confruntăm cu
multe probleme cu datele. Generăm o mulțime de date și trebuie să ne ocupăm de aceste date în
aşa fel încât în avantajele noastre. Deci, de aceea intervine învățarea automată. Mergând mai
departe, ce este exact învățarea automată?
Așa că permiteți-mi să vă ofer o scurtă istorie a învățării automate. Deci, învățarea automată a
fost inventată pentru prima dată de Arthur Samuel în anul 1959, care este la doar trei ani de când
a fost inventată inteligența artificială.
Deci, privind în urmă, acel an a fost probabil cel mai semnificativ în ceea ce privește progresul
tehnologic, deoarece majoritatea tehnologiilor de astăzi se bazează pe conceptul de învățare
automată. Majoritatea tehnologiilor AI în sine se bazează pe conceptul de machine learning și
deep learning. Nu vă confundați cu învățarea automată și învățarea profundă.
Vom discuta despre învățarea profundă în diapozitivele ulterioare, unde vom vedea, de
asemenea, diferența dintre AI, învățarea automată și învățarea profundă.
Deci, revenind la ce este exact învățarea automată, dacă navigăm pe internet, veți găsi o mulțime
de definiții despre ce este exact învățarea automată. Una dintre definițiile pe care le-am găsit a
fost se spune că un program de calculator învață din experiența E cu privire la o anumită clasă de
sarcină T iar performanța măsoară P dacă performanța sa la sarcină în T, măsurată de P, se
îmbunătățește cu experiența E.
Este foarte confuz, așa că permiteți-mi să vă limitez doar la voi. În termeni simpli, învățarea
automată este un subset de inteligență artificială care oferă mașinilor capacitatea de a învăța
automat și de a se îmbunătăți cu experiența fără a fi programat în mod explicit să facă acest
lucru. În sens, este practica de a face ca mașinile să rezolve probleme prin dobândirea capacității
de a gândi. Dar acum s-ar putea să te gândești cum poate o mașină să gândească sau să ia decizii.
Acum mașinile sunt foarte asemănătoare cu oamenii. Bine, dacă alimentați o mașină cu o
cantitate bună de date, va învăța cum să interpreteze, să proceseze și să analizeze aceste date
utilizând algoritmi de învățare automată, și vă va ajuta să rezolvați problemele lumii. Deci, ceea
ce se întâmplă aici este că o mulțime de date sunt transmise mașinii.
Mașina se va antrena pe aceste date și va construi un model predictiv cu ajutorul algoritmilor de
învățare automată pentru a prezice un rezultat sau pentru a găsi o soluție la o problemă.
Deci implică date. Veți antrena mașina și veți construi un model folosind algoritmi de învățare
automată pentru a prezice un rezultat sau pentru a găsi o soluție la o problemă. Deci, acesta este
un mod simplu de înțelegere ce este exact învățarea automată. Voi aprofunda mai mult despre
învățarea automată, așa că nu vă faceți griji dacă ați înțeles ceva până acum.
Acum să discutăm câțiva termeni care sunt folosiți frecvent în învățarea automată. Deci, prima
definiție pe care o întâlnim foarte des este un algoritm. Deci, practic, un algoritm de învățare
automată este un set de reguli și tehnici statistice care este folosit pentru a învăța modele din date
și pentru a extrage informații semnificative din acestea.
Bine. Deci, băieți, logica din spatele unui model de învățare automată este practic algoritmul de
învățare automată.
Bine, un exemplu de algoritm de învățare automată este regresia liniară, arborele de decizie sau o
pădure aleatoare.
Toate acestea sunt algoritmi de învățare automată. Vom defini logica din spatele unui model de
învățare automată.
Acum, ce este un model de învățare automată? Un model este de fapt componenta principală a
unui proces de învățare automată.
Bine, deci un model este antrenat utilizând algoritmul de învățare automată. Diferența dintre un
algoritm și un model este aceea că un algoritm mapează toate deciziile pe care un model ar trebui
să le ia pe baza intrării date
pentru a obține rezultatul corect. Deci, modelul va folosi algoritmul de învățare automată pentru
a extrage informații utile din input și pentru a vă oferi un rezultat foarte precis.
Acesta este modelul de învățare automată. Următoarea definiție pe care o avem este variabila
predictor. Acum o variabilă predictor este orice caracteristică a datelor care poate fi folosit
pentru a prezice rezultatul. Bine, permiteți-mi să vă dau un exemplu pentru a vă face să înțelegeți
ce este o variabilă predictor.
Să presupunem că încerci să prezici înălțimea unei persoane, în funcție de greutatea sa.
Deci, aici variabila ta de predicție devine greutatea ta, pentru că folosești greutatea unei persoane
pentru a prezice înălțimea persoanei.
Deci variabila dvs. de predicție devine greutatea dvs.
Următoarea definiție este variabila răspuns. Acum, în același exemplu, înălțimea ar fi variabila
de răspuns.
Variabila de răspuns este cunoscută și ca variabilă țintă sau variabilă de ieșire.
Aceasta este variabila pe care încercați să o preziceți folosind variabilele predictor. Deci o
variabilă de răspuns este caracteristica sau variabila de ieșire care trebuie prezisă utilizând
variabilele predictoare. În continuare, avem ceva cunoscut sub numele de date de antrenament.
Acum, datele de instruire și testare sunt terminologii pe care le veți întâlni foarte des într-un
proces de învățare automată.
Deci, datele de antrenament sunt practic datele pe care le-am folosit pentru a crea modelul de
învățare automată.
Deci, practic, într-un proces de învățare automată, atunci când introduceți date în mașină, acestea
vor fi împărțite în două părți.
Prin urmare, împărțirea datelor în două părți este cunoscută și sub numele de îmbinare a datelor.
Deci vă veți lua datele de intrare, îl vei împărți în două secțiuni. Unul vei apela datele de
antrenament, iar celălalt îl vei apela datele de testare.
Deci, aveți ceva cunoscut sub numele de date de testare. Datele de antrenament sunt utilizate
practic pentru a crea modelul de învățare automată.
Datele de instruire ajută modelul să identifice tendințele și modelele cheie care sunt esențiale
pentru a prezice rezultatul.
Acum, datele de testare sunt, după ce modelul este antrenat, trebuie testate pentru a evalua cât de
precis poate prezice un rezultat. Acum acest lucru se face folosind datele de testare. Deci,
practic, datele de antrenament sunt folosite pentru a antrena modelul.
Datele de testare sunt folosite pentru a testa eficiența modelului. Acum să trecem mai departe și
să luăm următorul subiect, care este procesul de învățare automată. Deci, care este procesul de
învățare automată? Acum, procesul de învățare automată presupune construirea unui model
predictiv care poate fi folosit pentru a găsi o soluție pentru o enunțare a problemei.
Acum, pentru a rezolva orice problemă în învățarea automată, există câțiva pași pe care trebuie
să îi urmați.
Să ne uităm la pași. Primul pas este să definiți obiectivul problemei dvs. Iar al doilea pas este
colectarea datelor, care este urmat de pregătirea datelor dvs., explorarea datelor, construirea unui
model, evaluarea modelului și, în final, realizarea de predicții. Acum, pentru a înțelege procesul
de învățare automată, să presupunem că vi s-a dat o problemă care trebuie rezolvată folosind
învățarea automată.
Deci, problema pe care trebuie să o rezolvați este că trebuie să anticipăm apariția ploii în zona
dvs. locală, folosind învățarea automată.
Deci, practic, trebuie să preziceți posibilitatea ploii studiind condițiile meteorologice. Deci ceea
ce am făcut aici suntem noi
practic, sa uitat la pasul numărul unu, care este definirea obiectivului problemei. Acum aici
trebuie să răspundeți la întrebări precum ce încercăm să prezicem. Acea ieșire va fi o variabilă
continuă sau va fi o variabilă discretă?
Acestea sunt tipurile de întrebări la care trebuie să răspunzi în prima pagină, care definește
obiectivul problemei, nu?
Deci da, exact care sunt caracteristicile țintă. Deci aici trebuie să înțelegeți care este variabila
țintă și care sunt diferitele variabile predictoare de care aveți nevoie pentru a prezice acest
rezultat.
Deci aici variabila noastră țintă va fi practic o variabilă care ne poate spune dacă va ploua sau nu.
Datele de intrare sunt că vom avea nevoie de date precum temperatura într-o anumită zi sau
nivelul de umiditate, precipitațiile și așa mai departe.
Deci, trebuie să definiți obiectivul în această etapă. Deci, practic, trebuie să vă faceți o idee
despre problemă
la acest depozit. O altă întrebare pe care trebuie să ți-o pui este ce fel de problemă rezolvi.
Este aceasta o problemă de clasificare binară sau este o problemă de grupare sau este o problemă
de regresie?
Acum, mulți dintre voi s-ar putea să nu fie familiarizați cu termenii de clasificare în cluster și
regresie în ceea ce privește învățarea automată.
Nu vă faceți griji, voi explica toți acești termeni în diapozitivele următoare. Tot ce trebuie să
înțelegeți la pasul unu trebuie să definiți cum veți rezolva problema. Trebuie să înțelegeți ce fel
de date trebuie să rezolvi problema, cum vei aborda problema, ce încerci să prezici, de ce
variabile veți avea nevoie pentru a prezice rezultatul și așa mai departe. Să mergem mai departe
și să ne uităm la pasul numărul doi, care este culegerea de date. Acum, în această etapă, trebuie
să puneți întrebări precum: ce fel de date sunt necesare pentru a rezolva această problemă? Și
aceste date sunt disponibile?
Și dacă este disponibil, de unde pot obține aceste date și cum pot obține datele?
Colectarea datelor este unul dintre pașii care consumă cel mai mult timp în procesul de învățare
automată. Dacă trebuie să mergeți manual și să colectați datele, va dura mult timp. Dar, norocos
pentru noi, există o mulțime de resurse online, care erau seturi largi de date. Tot ce trebuie să
faceți este să faceți web scraping, unde trebuie doar să mergeți mai departe și să descărcați date.
Unul dintre site-urile web despre care vă pot spune totul este Cargill. Deci, dacă sunteți începător
în învățarea automată, nu vă faceți griji cu privire la colectarea datelor și toate acestea.
Tot ce trebuie să faceți este să accesați site-uri web precum Cargill și să descărcați setul de date.
Deci, revenind la problema pe care o discutăm, care prezice vremea, datele necesare pentru
prognoza meteo includ măsuri precum nivelul de umiditate, temperatura, presiunea, localitatea,
indiferent dacă locuiți sau nu într-o stație de deal, astfel de date trebuie colectate sau stocate
pentru analiză. Deci toate datele sunt colectate în timpul etapei de culegere a datelor. Acest pas
este urmat de pregătirea datelor, sau cunoscut și sub denumirea de curățare a datelor.
Așadar, dacă strângeți date, nu este aproape niciodată în formatul potrivit. Și eve dacă luați date
din resurse online de pe orice site, chiar și atunci, datele vor necesita curățare și pregătire.
Datele nu sunt niciodată în formatul potrivit. Trebuie să faceți un fel de pregătire și un fel de
curățare pentru a pregăti datele pentru analiză.
Deci, ceea ce veți întâlni în timpul curățării datelor este că veți întâlni o mulțime de
inconsecvențe în setul de date, ca și cum veți întâlni câteva valori lipsă, variabile redundante,
valori duplicate și toate astea.
Prin urmare, eliminarea unor astfel de inconsecvențe este foarte importantă, deoarece acestea ar
putea duce la orice nedreptate calcule și previziuni. Bine, deci în această etapă puteți scana setul
de date pentru eventuale inconsecvențe,
și le poți repara atunci și acolo. Acum permiteți-mi să vă ofer un mic fapt despre curățarea
datelor.
Deci a fost un sondaj care a fost derulat anul trecut sau cam asa ceva. Nu sunt sigur. Și mulți
oameni de știință au fost întrebați care pas a fost cel mai dificil sau cel mai enervant și
consumator de timp dintre toate.
Și 80% dintre cercetătorii de date au spus că este vorba de curățarea datelor. Curățarea datelor
ocupă 80% din timp.
Deci nu este foarte ușor să scapi de valorile lipsă și de datele corupte. Și chiar dacă scapi de
valorile lipsă, uneori, setul dvs. de date poate fi afectat. S-ar putea să devină părtinitoare,
deoarece poate o variabilă are prea multe valori lipsă, iar acest lucru vă va afecta rezultatul. Deci
va trebui să remediați o astfel de problemă, va trebui să ne ocupăm de toate aceste date lipsă și
date corupte. Deci, curățarea datelor este de fapt unul dintre cei mai grei pași în procesul de
învățare automată. Bine, acum hai să mergem mai departe și să ne uităm la următorul pas, care
este analiza exploratorie a datelor. Deci aici ceea ce faci este practic să devii un detectiv pe
scenă. Deci, această etapă, care este EDA sau analiza exploratorie a datelor, este ca etapa de
brainstorming a învățării automate. Explorarea datelor implică înțelegerea tiparelor și tendințele
în datele dvs. Deci, în această etapă, sunt extrase toate informațiile utile și orice corelații între
diferitele variabile sunt înțelese. Ce vreau să spun prin tendințe, modele și corelații?
Acum să luăm în considerare exemplul nostru, care este că trebuie să prezicem precipitațiile într-
o anumită zi. Deci știm că există o mare posibilitate de ploaie dacă temperatura a scăzut legea.
Deci știm că rezultatul nostru va depinde de variabile precum temperatura, umiditatea și așa mai
departe. Acum la ce nivel depinde de aceste variabile,va trebui să aflăm asta. Va trebui să aflăm
tiparele și vom afla corelațiile între astfel de variabile. Deci, astfel de modele și tendințe trebuie
înțelese și cartografiate în această etapă.
Deci despre asta este analiza exploratorie a datelor. Este cea mai importantă parte a învățării
automate.
Aici veți înțelege care sunt exact datele dvs. și cum puteți forma o soluție la problema dvs.
Următorul pas într-un proces de învățare automată este construirea unui modul de învățare
automată. Deci, toate perspectivele și modelele pe care le obțineți în timpul explorării datelor
sunt folosite pentru a construi un model de învățare automată. Deci, această etapă începe
întotdeauna prin împărțirea setului de date în două părți, care sunt date de antrenament și date de
testare. Am discutat deja cu tine despre datele pe care le-ai folosit într-un proces de învățare
automată este întotdeauna împărțit în două părți. Avem datele de antrenament și avem datele de
testare.
Acum, când construiți un model, utilizați întotdeauna datele de antrenament. Deci, utilizați
întotdeauna datele de antrenament pentru a construi modelul. Acum mulți dintre voi s-ar putea să
vă întrebați ce sunt datele de antrenament.
Este diferit de datele de intrare pe care le alimentați cu mașina sau este diferit de datele de
testare?
Acum, datele de antrenament sunt aceleași date de intrare pe care le furnizați mașinii. Singura
diferență este că ești împărțirea setului de date în două. Alegeți aleatoriu 80% din datele dvs. și le
alocați în scop de instruire.
Și restul de 20%, probabil, îl veți aloca în scop de testare. Așa că, băieți, amintiți-vă întotdeauna
un alt lucru datele de antrenament sunt întotdeauna mult mai mult decât datele de testare, evident
pentru că trebuie să-ți antrenezi mașina.
Și cu cât alimentați mașina cu mai multe date în timpul fazei de antrenament, cu atât va fi mai
bine în timpul fazei de testare.
Evident, va prezice rezultate mai bune dacă este instruit pe mai multe date. Corect?
Deci, modelul utilizează practic algoritmul de învățare automată care prezice rezultatul utilizând
datele furnizate acestuia.
Acum, în cazul prezicerii precipitațiilor, rezultatul va fi o variabilă categorială, deoarece vom
prezice fie că va ploua sau nu. Bine, deci să presupunem că avem o variabilă de ieșire numită
ploaie.
Cele două valori posibile pe care le poate lua această variabilă sunt da, va ploua și nu, nu va
ploua.
Corect, așa că a ieșit. Rezultatul nostru este o clasificare sau o variabilă categorială.
Deci, pentru astfel de cazuri în care rezultatul este o variabilă categorială, veți folosi algoritmi de
clasificare.
Din nou, un exemplu de algoritm de clasificare este regresia logistică sau puteți susține și mașini
vectoriale, puteți folosi K cel mai apropiat vecin și puteți folosi, de asemenea, Bayes naiv și așa
mai departe.
Acum nu-ți face griji în legătură cu acești termeni, voi discuta cu tine despre toți acești algoritmi.
Dar amintește-ți asta în timp ce construiești un model de învățare automată, veți folosi datele de
antrenament. Veți antrena modelul utilizând datele de antrenament și algoritmul de învățare
automată. . Acum, așa cum am spus, alegerea algoritmului de învățare automată depinde de
enunțul problemei pe care încercați să le rezolvați din cauza numărului N de algoritmi de
învățare automată. Va trebui să alegem algoritmul care este cel mai potrivit pentru declarația
problemei dvs.
Deci, pasul numărul șase este evaluarea și optimizarea modelului. Acum, după ce ați terminat de
construit un model prin utilizarea setului de date de antrenament, este în sfârșit timpul să testăm
modelul rutier.
Setul de date de testare este utilizat pentru a verifica eficiența modelului și cât de precis poate
prezice rezultatul.
Deci, odată ce precizia este calculată, orice îmbunătățiri suplimentare ale modelului pot fi
implementate în această etapă.
Diferitele metode care vă pot ajuta să îmbunătățiți performanța modelului, cum ar fi puteți utiliza
reglarea parametrilor și metode de validare încrucișată pentru a îmbunătăți performanța
modelului. Acum principalele lucruri pe care trebuie să le amintiți în timpul evaluării și
optimizării modelului este că evaluarea modelului nu este altceva decât testați cât de bine poate
prezice modelul dvs. rezultatul. Deci, în această etapă, veți utiliza setul de date de testare.
În etapa anterioară, care constă în construirea unui model, veți folosi setul de date de
antrenament. Dar în etapa de evaluare a modelului, veți folosi setul de date de testare. Acum,
după ce ați testat modelul, trebuie să calculați precizia.
Trebuie să calculați cât de precis prezice modelul dvs. rezultatul. După aceea, dacă descoperi că
trebuie îmbunătățiți-vă modelul într-un fel sau altul, deoarece acuratețea nu este foarte bună,
atunci veți folosi metode precum reglarea parametrilor.
Nu-ți face griji în legătură cu acești termeni, voi discuta toate acestea cu tine, dar încerc doar să
mă asigur că înțelegi conceptul în spatele fiecăreia dintre faze și învățarea automată. Este foarte
important să înțelegeți fiecare pas.
Bine, acum să trecem mai departe și să ne uităm la ultima etapă a învățării automate, care este
predicțiile.
Acum, odată ce un model este evaluat și odată ce l-ați îmbunătățit, acesta este în sfârșit folosit
pentru a face predicții.
Rezultatul final poate fi fie o variabilă categorică, fie o variabilă continuă.
Acum, toate acestea depind de declarația problemei tale. Nu vă confundați cu variabilele
continue, variabile categoriale. Voi discuta despre toate acestea. Acum, în cazul nostru, pentru că
anticipăm apariția ploilor, ieșirea va fi variabilă categorică. Este evident pentru că anticipăm
dacă va ploua sau nu.
Rezultatul, înțelegem că aceasta este o problemă de clasificare deoarece avem o variabilă
categorială.Deci, acesta a fost întregul proces de învățare automată. Acum este timpul să învățăm
despre diferitele moduri în care mașinile pot învăța. Deci, să mergem mai departe și să ne uităm
la tipurile de învățare automată.
Acum acesta este unul dintre cele mai interesante concepte din învățarea automată, cele trei
moduri diferite în care mașinile învață.
Există ceva cunoscut sub numele de învățare supravegheată, învățare nesupravegheată și învățare
prin întărire.
Deci vom trece prin asta unul câte unul. Vom înțelege mai întâi ce este învățarea supravegheată,
și apoi ne vom uita la celelalte două tipuri. Deci definită învățarea supervizată, este practic o
tehnică în care predăm sau antrenați mașina utilizând datele, care sunt bine etichetate. Acum,
pentru a înțelege învățarea supravegheată, să luăm în considerare un mic exemplu. Deci, în
copilărie, toți aveam nevoie de îndrumare pentru a rezolva probleme de matematică.
Mulți dintre noi au avut probleme în rezolvarea problemelor de matematică. Așa că profesorii
noștri ne ajută întotdeauna să înțelegem ce este adăugarea un dhow se face. În mod similar, vă
puteți gândi la învățarea supravegheată ca la un tip de învățare automată
care implică un ghid. Setul de date de etichetă este un profesor care vă va instrui să înțelegeți
tiparele din date.
Deci setul de date de etichetă nu este altceva decât setul de date de antrenament. Voi explica mai
multe despre asta peste ceva timp.
Deci, pentru a înțelege mai bine învățarea supravegheată, să ne uităm la figura de pe ecran. Chiar
aici alimentăm mașina imaginea lui Tom și Jerry, iar scopul este ca mașina să o identifice și
clasificați imaginile în două clase. Unul va conține imagini cu Tom, iar celălalt va conține
imagini cu Jerry.
Acum, principalul lucru pe care trebuie să-l rețineți în învățarea supravegheată este un set de date
de antrenament. Setul de date de antrenament va fi foarte bine etichetat.
Acum, ce vreau să spun când spun că setul de date de antrenament este etichetat. Practic, ceea ce
facem este că îi spunem mașinii așa arată Tom și așa arată Jerry. Făcând asta, antrenezi mașina
prin utilizarea datelor de etichetă. Deci, principalul lucru pe care îl faceți este să etichetați fiecare
date de intrare pe care le furnizați modelului.
Deci, practic, întregul set de date de antrenament este etichetat. Ori de câte ori îi oferi o imagine
a lui Tom,
Va fi o etichetă acolo care să spună că acesta este Tom. Și când oferi o imagine a lui Jerry, spui
că așa arată Jerry.
Deci, practic, ghidezi mașina și spui că „Ascultă, așa arată Tom, „așa arată Jerry”, și acum
trebuie să-i clasificăm. „în două clase diferite”. Așa funcționează învățarea supravegheată. În
afară de asta, este același proces vechi.
După ce obțineți datele de intrare, veți efectua curățarea datelor. Apoi este analiza exploratorie a
datelor, urmată de crearea modelului utilizând algoritmul de învățare automată, iar apoi este
urmată de evaluarea modelului, și, în sfârșit, previziunile tale.. Acum, încă un lucru de remarcat
aici este că rezultatul pe care îl obțineți prin utilizarea învățării supravegheate este de asemenea
etichetat. Deci, practic, vei primi două clase diferite cu numele Tom și unul pe nume Jerry și le
vei eticheta. Așa funcționează învățarea supravegheată.
Cel mai important lucru în învățarea supravegheată este că antrenați modelul utilizând set de date
etichetat. Acum să trecem mai departe și să ne uităm la învățarea nesupravegheată.
Ne uităm la același exemplu și înțelegem cum funcționează învățarea nesupravegheată. Deci, ce
este exact învățarea nesupravegheată?
Acum, acest lucru implică antrenament prin utilizarea datelor neetichetate și permițând
modelului să acționeze pe baza acelei informații fără nicio îndrumare. În regulă. După cum
sugerează și numele, nu există nicio supraveghere aici.
Este o învățare nesupravegheată. Așa că gândiți-vă la învățarea nesupravegheată ca la un copil
inteligent care învață fără nicio îndrumare. Bine, în acest tip de învățare automată, modelul nu
este alimentat cu date de etichetă, ca în model nu are nicio idee că aceasta este imaginea lui Tom
și acesta este Jerry.
Descoperă singur tiparele și diferența dintre Tom și Jerry prin preluarea de tone și tone de date.
Acum, cum credeți că mașina identifică acest lucru ca Tom și apoi ne oferă în sfârșit rezultatul ca
da, acesta este Tom, acesta este Jerry. De exemplu, identifică caracteristicile proeminente ale lui
Tom, cum ar fi urechile ascuțite, mai mari și așa mai departe, pentru a înțelege că această
imagine este de tipul unu.
În mod similar, află caracteristici în Jerry și știe că această imagine este de tipul doi, adică prima
imagine este diferit de cea de-a doua imagine. Deci, algoritmul de învățare nesupravegheată sau
modelul face este că va forma două grupuri diferite.
Va forma un cluster care este foarte asemănător, iar celălalt cluster care este foarte diferit de
primul cluster.
Așa funcționează învățarea nesupravegheată. Deci, lucrurile importante pe care trebuie să le știți
în învățarea nesupravegheată este că vei alimenta mașina cu date neetichetate. Mașina trebuie să
înțeleagă tiparele și descoperă singur rezultatul. Și în cele din urmă, mașina va forma grupuri
bazat pe asemănarea caracteristicilor. Acum să trecem mai departe și să găsim ultimul tip de
învățare automată, care este învăţarea prin întărire. Învățarea prin întărire este destul de diferită
în comparație cu învățarea supravegheată și nesupravegheată.Ce este de fapt învățarea prin
întărire? Este o parte a învățării automate în care un agent este pus într-un mediu, iar el învață să
se comporte în acest mediu efectuând anumite acțiuni, și observarea recompenselor care se obțin
din acele acțiuni. Pentru a înțelege ce este învățarea prin întărire, imaginează-ți că ai fost lăsat pe
o insulă izolată. Ce ai face?
Acum intră în panică. Da, desigur, inițial, vom intra în panică cu toții. Dar pe măsură ce timpul
trece, vei învăța cum să trăiești pe insulă.
Vei exploda mediul, vei înțelege condițiile climatice, tipul de hrană care crește acolo, pericolele
insulei și așa mai departe. Exact așa funcționează învățarea prin întărire.
Practic implică un agent, care este tu blocat pe insulă, care este pus într-un mediu necunoscut,
care este insula, unde trebuie să învețe observând și efectuând acțiuni care au ca rezultat
recompense.
Prin urmare, învățarea prin consolidare este utilizată în principal în domenii avansate de învățare
automată, cum ar fi mașinile cu conducere autonomă și AlphaGo.
Sunt sigur că mulți dintre voi ați auzit de AlphaGo. Deci, logica din spatele AlphaGo nu este
altceva decât învățare prin consolidare și învățare profundă.
Și în învățarea prin întărire, nu există cu adevărat date de intrare date agentului. Tot ce trebuie să
facă este să exploreze totul de la zero este ca un nou-născut fără informații despre nimic.
El trebuie să exploreze mediul înconjurător, să obțină recompense și să efectueze unele acțiuni
care are ca rezultat fie recompense, fie un fel de pedeapsă. Bine. Deci, asta rezumă tipurile de
învățare automată. Înainte de a merge mai departe, aș dori să discut despre diferența dintre cele
trei tipuri de învățare automată, doar pentru a vă clarifica conceptul tuturor. Deci, să începem
prin a ne uita la definițiile fiecăruia.
În învățarea supravegheată, mașina va învăța utilizând datele etichetei. În învățarea
nesupravegheată, acestea vor fi date neetichetate, iar mașina trebuie să învețe fără nicio
supraveghere. În învățarea prin întărire, va exista un agent care interacționează cu mediul
producând acțiuni și descoperă erori sau recompense pe baza acțiunilor sale. Acum care sunt
tipurile de probleme care pot fi rezolvate prin utilizarea supravegheată, nesupravegheată, și
învățare prin întărire. Când vine vorba de învățarea supervizată, cele două tipuri principale de
probleme care sunt rezolvate sunt problemele de regresie și problemele de clasificare.
Când vine vorba de învățare nesupravegheată, este vorba de probleme de asociere și grupare.
Când vine vorba de învățare prin întărire, sunt probleme bazate pe recompense. Voi discuta
despre regresie, clasificare, grupare și toate acestea în diapozitivele următoare, deci nu-ți face
griji dacă nu înțelegi asta. Acum, tipul de date care este folosit în învățarea supravegheată este
etichetat date.
În învățarea nesupravegheată, neetichetat. Și în învățarea prin consolidare, nu avem un set de
date predefinit.
Agentul trebuie să facă totul de la zero. Acum tipul de antrenament implicat în fiecare dintre
aceste învățături.
În învățarea supravegheată, există supraveghere externă, deoarece există setul de date etichetat
care acționează ca un ghid pentru mașină pentru a învăța.
În învățarea nesupravegheată, nu există supraveghere. Din nou, în învățarea prin întărire, nu
există deloc supraveghere.
Acum, care este abordarea pentru rezolvarea problemelor prin utilizarea învățării supravegheate,
nesupravegheate și prin întărire?
În învățarea supravegheată, este simplu. Trebuie să transferați intrarea etichetată la ieșirea
cunoscută.
Aparatul știe cum arată rezultatul. Deci doar etichetați intrarea la ieșire. În învățarea
nesupravegheată, veți înțelege tiparele și veți descoperi rezultatul. Aici nu ai nicio idee despre ce
este intrarea.
Nu este etichetat. Trebuie doar să înțelegeți tiparele și va trebui să formați grupuri și să
descoperiți rezultatul.
În învățarea prin întărire, nu există niciun indiciu. Va trebui să urmați metoda de încercare și
eroare.
Va trebui să faci ocol prin mediul tău. Va trebui să explorați mediul înconjurător și va trebui să
încercați câteva acțiuni.
Și numai odată ce ați efectuat acele acțiuni, veți ști dacă aceasta este o acțiune bazată pe
recompensă sau dacă aceasta este o acțiune bazată pe pedeapsă. Deci, învățarea prin întărire se
bazează în totalitate asupra conceptului de încercare și eroare. Bine. Un algoritm popular pentru
învățarea supravegheată include regresie liniară, regresii logistice, mașini vector suport K
vecinul cel mai apropiat, Bayes naiv și așa mai departe. În cadrul învățării nesupravegheate,
avem faimoasa metodă de grupare K-means, C-means si toate astea. Sub învățarea prin întărire,
avem faimosul algoritm de învățare Q-learning. Voi discuta despre acești algoritmi în
diapozitivele următoare.
Deci să trecem mai departe și să privim următorul subiect, care este tipurile de probleme
rezolvate folosind învățarea automată. Acum, despre asta vorbeam mai devreme când am spus
regresie, clasificare, și probleme de clustering. Bine, să discutăm exact ce vreau să spun prin
asta. În învățarea automată, toate problemele pot fi clasificate în trei tipuri. Fiecare problemă
care este abordată în învățarea automată poate fi pus interes una dintre aceste trei categorii. Bine,
deci primul tip este cunoscut sub numele de regresie, atunci avem clasificare și grupare. Deci,
mai întâi, să ne uităm la problemele de tip regresie.
Deci, în această problemă de tip, rezultatul este întotdeauna o cantitate continuă. De exemplu,
dacă vrei să prezici viteza unei mașini, dată fiind distanța, este o problemă de regresie. Acum
mulți dintre voi s-ar putea să nu fiți foarte conștienți a ceea ce este exact o cantitate continuă. O
cantitate continuă este orice cantitate pe care o poate avea o gamă infinită de valori. De exemplu,
Greutatea unei persoane, este o cantitate continuă, deoarece greutatea noastră poate fi 50, 50.1,
50.001, 5.0021, 50.0321 și așa mai departe. Poate avea o gamă infinită de valori, corect?
Deci tipul de problemă trebuie să preziceți o cantitate continuă pentru a utiliza algoritmi de
regresie.
Deci, problemele de regresie pot fi rezolvate folosind algoritmi de învățare supravegheată, cum
ar fi regresia liniară.
În continuare, avem clasificarea. Acum, în acest tip de problemă, rezultatul este întotdeauna o
valoare categorică.
Acum, când spun valoare categorică, poate fi o valoare, cum ar fi genul unei persoane este o
valoare categorică.
Acum, clasificarea e-mailurilor în două două clase, cum ar fi spam și non-spam, este o problemă
de clasificare care poate fi rezolvată prin utilizarea algoritmilor de clasificare a învățării
supravegheate, cum ar fi mașini vectori suport, Bayes naiv, regresie logistică, K cel mai apropiat
vecin și așa mai departe. Deci, din nou, scopul principal în clasificare este de a calcula categoria
datelor. Se ajunge la probleme de clustering.
Acest tip de problemă implică o intrare atribuită în două sau mai multe grupuri bazat pe
asemănarea caracteristicilor. Astfel, când citesc această propoziție, ar trebui să înțelegeți că
aceasta este o învățare nesupravegheată, pentru că nu aveți suficiente date despre intrarea dvs. și
singura opțiune pe care o aveți este să formați grupuri
Categoriile se formează doar atunci când știi că datele tale sunt de două tipuri. Datele dvs. de
intrare sunt etichetate și sunt de două tipuri, deci va fi o problemă de clasificare. Dar când apare
o problemă de grupare, când nu aveți prea multe informații despre intrarea dvs., tot ce trebuie să
faci este să găsești modele și să înțelegi acele puncte de date care sunt similare sunt grupate într-
un grup, iar punctele de date care sunt diferite de primul grup sunt grupate într-un alt grup.
Asta este gruparea. Un exemplu este în Netflix ceea ce se întâmplă este Netflix își grupează
utilizatorii în grupuri similare în funcție de interesul lor, în funcție de vârstă, geografie și așa mai
departe. Acest lucru se poate face folosind algoritmi de învățare nesupravegheați ca K-înseamnă.
Bine. Deci băieți, au fost cele trei categorii de probleme care poate fi rezolvată prin utilizarea
machine learning. Deci, practic, ceea ce încerc să spun este că toate problemele vor intra într-una
dintre aceste categorii.
Deci, orice problemă pe care o dați unui model de învățare automată, se va încadra într-una
dintre aceste categorii.
Bine. Acum, pentru a face lucrurile puțin mai interesante, am colectat seturi de date din lumea
reală din resurse online.
Și ceea ce vom face este să încercăm să înțelegem dacă aceasta este o problemă de regresie, sau
o problemă de grupare sau o problemă de clasificare. Bine. Acum, declarația problemei aici este
de a studia setul de date privind vânzările de case și de a construi un model de învățare automată
care prezice indicele prețurilor caselor.
Acum, cel mai important lucru pe care trebuie să-l înțelegeți când citiți o declarație de problemă
este că trebuie să înțelegeți care este variabila țintă, care sunt posibilele variabile de predicție de
care veți avea nevoie. Primul lucru la care ar trebui să vă uitați este variabila țintă.
Dacă doriți să înțelegeți dacă aceasta este o problemă de clasificare, regresie sau clustering,
uitați-vă la variabila țintă sau la variabila de ieșire pe care ar trebui să-l prezici. Aici ar trebui să
preziceți indicele prețurilor caselor. Indicele nostru de prețuri pentru case este evident o cantitate
continuă. Deci, de îndată ce înțelegeți asta, veți ști că aceasta este o problemă de regresie.
Deci, pentru aceasta, puteți utiliza algoritmul de regresie liniară și puteți prezice indicele
prețurilor caselor.
Regresia liniară este algoritmul de regresie. Este un algoritm de învățare supravegheată.
Vom discuta mai multe despre el în diapozitivele ulterioare. Să ne uităm la următoarea noastră
declarație de problemă. Aici trebuie să studiați un set de date de credit bancar, și să ia o decizie
cu privire la aprobarea împrumutului unui solicitant pe baza profilului său.
Acum care este variabila ta de ieșire aici? Variabila dvs. de ieșire este de a prezice dacă puteți
aproba sau nu împrumutul unui solicitant. Deci, evident, rezultatul tău va fi categoric.
Ori va fi da sau nu. Da este practic un împrumut aprobat. Nu este respingerea împrumutului.
Deci aici, înțelegeți că aceasta este o problemă de clasificare. Bine.
Deci, puteți utiliza algoritmi precum algoritmul KNN sau puteți utiliza mașini de suport vector
pentru a face acest lucru. Deci, suportați mașina vectorială și KNN care este K algoritmi de vecin
cel mai apropiat sunt practic algoritm de învățare supravegheat. Vom vorbi mai multe despre asta
în diapozitivele viitoare. Trecem la următoarea noastră declarație de problemă. Aici declarația
problemei este de a grupa un set de filme, fie bune, fie medii, pe baza activității de socializare.
Acum, dacă te uiți corect, indiciul tău se află în întrebarea însăși. Prima linie pe care o spune este
să grupați un set de filme fie bun, fie mediu. Acum, băieți, ori de câte ori aveți o declarație de
problemă care vă cere să grupați setul de date în grupuri diferite sau pentru a forma grupuri
diferite, diferite, este evident o problemă de grupare.
Chiar aici puteți utiliza algoritmul de grupare K-means și puteți forma două grupuri. Unul va
conține filmele populare iar celălalt va conține filmele nepopulare. Aceste mici exemple în
regulă despre cum le puteți folosi învățarea automată pentru a rezolva problema de clustering,
regresia și problemele de clasificare.
Cheia este că trebuie să identificați mai întâi tipul de problemă. Acum să trecem mai departe și să
discutăm despre diferitele tipuri.
Part 2- Regresia liniara

Acum, ce este exact un algoritm de regresie liniară? Regresia liniară este practic un
algoritm de învățare supravegheat care este folosit pentru a prezice o variabilă dependentă
continuă y pe baza valorilor variabilei independente x. Lucrul important de remarcat aici este că
variabila dependentă y, variabila pe care încercați să o preziceți, va fi întotdeauna o variabilă
continuă. Dar variabila independentă x, care este practic variabilele predictoare, acestea sunt
variabilele pe care le vei folosi pentru a prezice variabila de ieșire, care nu este altceva decât
variabila dependentă. Deci variabilele tale independente sau variabilele predictive pot fi fie
continue, fie discrete. Bine, nu există o astfel de restricție aici. Bine, pot fi fie variabile continue,
fie pot fi variabile discrete.
Acum, din nou, vă voi spune ce este o variabilă continuă, în cazul în care ați uitat. Este o
variantă care are un număr infinit de posibilități. Așa că vă voi da un exemplu de greutate a unei
persoane. Poate fi de 160 de kg, sau pot cântări 160,11 de kg, sau 160,1134 de kg și așa mai
departe. Deci numărul de posibilități pentru greutate este nelimitat și exact asta este o variabilă
continuă. Acum, pentru a înțelege regresia liniară, să presupunem că doriți să preziceți prețul
unui stoc într-o perioadă de timp. Pentru o astfel de problemă, puteți folosi regresia liniară
pornind relația dintre variabila dependentă, care este prețul acțiunilor, și variabila independentă,
care este timpul. Încercați să preziceți prețul acțiunilor într-o perioadă de timp. Deci, practic, veți
verifica cum variază prețul unui stoc într-o perioadă de timp. Deci prețul acțiunilor va fi variabila
dependentă sau variabila de ieșire, iar timpul va fi variabila predictor sau variabila independentă.
Variabila ta dependentă este variabila ta de ieșire. Bine, variabila independentă este variabila de
intrare sau variabila predictor. Deci, în cazul nostru, prețul acțiunilor este evident o cantitate
continuă, deoarece prețul acțiunilor poate avea un număr infinit de valori. Acum, primul
pas în regresia liniară este întotdeauna să stabiliți o relație între variabila dvs. dependentă și cea
independentă, folosind lungimea liniară cea mai potrivită. Presupunem că variabila dvs.
dependentă și independentă este liniar legată una de cealaltă.
O numim regresie liniară deoarece ambele variabile variază liniar, ceea ce înseamnă că
prin reprezentarea grafică a relației dintre aceste două variabile, vom obține mai mult o linie
dreaptă, în loc de una curbată. Să discutăm despre matematica din spatele regresiei liniare. Deci,
această ecuație de aici, denotă relația dintre variabila ta independentă x, care este aici, și variabila
ta dependentă y. Aceasta este variabila pe care încerci să o prezici. Ecuația pentru o linie liniară
în matematică este y egal cu mx plus c. Deci ecuația pentru o dreaptă liniară în matematică este y
egal cu mx plus c. În mod similar, ecuația de regresie liniară este reprezentată de-a lungul
aceleiași linii. Bine, y este egal cu mx plus c. Sunt doar câteva modificări, despre care vă voi
spune. Să înțelegem corect această ecuație. Deci, practic, y reprezintă variabila ta dependentă pe
care o vei prezice. B nimic nu este interceptarea y. Acum, interceptarea nu este altceva decât
acest punct aici. Acum, în acest grafic, arăți practic relația dintre variabila ta dependentă y și
variabila ta independentă x. Acum aceasta este relația liniară dintre aceste două variabile. Bine,
acum interceptarea ta este practic punctul de pe linie care începe la axa y. Acesta este y
interceptor, care este reprezentat de B nimic. Acum B one sau beta este panta acestei linii, acum
panta poate fi fie negativă, fie pozitivă, în funcție de relația dintre variabila dependentă și cea
independentă. Următoarea variabilă pe care o avem este x. X reprezintă aici variabila
independentă care este utilizată pentru a prezice variabila de ieșire rezultată. Practic, x este
folosit pentru a prezice valoarea lui y. E aici denotă eroarea în calcul. De exemplu, aceasta este
linia reală, iar aceste puncte reprezintă aici valorile prezise. Acum, distanța dintre acestea două
este indicată de eroarea de calcul. Deci aceasta este întreaga ecuație.
Regresia liniară va desena practic o relație între intrarea dvs. și variabila dvs. de intrare.
Așa a fost regresia liniară simplă. Acum, pentru a înțelege mai bine regresia liniară, voi rula o
demonstrație în Python.
Part 3- Arbori de decizie

Acum următorul algoritm despre care voi vorbi este arborele de decizie. Arborele de
decizie este unul dintre algoritmii mei preferați, pentru că este foarte simplu de înțeles cum
funcționează. Deci, înainte de asta, am discutat despre regresia liniară, care era un algoritm de
regresie. Apoi am discutat despre regresia logistică, care este un algoritm de clasificare. Acum
discutăm despre arborele de decizie, care este din nou un algoritm de clasificare. Deci, ce este
mai exact un arbore de decizie? Acum, un arbore de decizie este, din nou, un algoritm de
învățare automată supravegheat care arată ca un arbore inversat în care fiecare nod reprezintă o
variabilă predictor, iar legătura dintre nod reprezintă o decizie, iar fiecare nod frunză reprezintă
un rezultat. Acum știu că este puțin confuz, așa că permiteți-mi să vă fac să înțelegeți ce este un
arbore de decizie cu ajutorul unui exemplu.
Să presupunem că ai găzduit o petrecere uriașă și vrei să știi câți din invitații tăi sunt non-
vegetarieni. Deci, pentru a rezolva această problemă, puteți crea un arbore decizional simplu.
Acum, dacă te uiți la această cifră de aici, am creat un arbore de decizie care clasifică un oaspete
fie vegetarian, fie non-vegetarian. Ultimul nostru rezultat aici este non-vegetarian sau vegetarian.
Deci aici înțelegeți că acesta este un algoritm de clasificare, deoarece aici preziceți o valoare
categorică. Fiecare nod de aici reprezintă o variabilă predictor. Deci mâncatul de pui este o
variabilă, mâncatul de oaie este o variabilă, fructele de mare este o altă variabilă. Deci, fiecare
nod reprezintă o variabilă predictor care vă va ajuta să concluzionați dacă un oaspete este sau nu
non-vegetarian. Acum, pe măsură ce traversați copacul, veți lua decizii pentru fiecare nod până
când ajungeți în fundătură.
Deci, să presupunem că avem un nou punct de date. Acum o vom trece prin arborele de
decizie. Prima variabilă este că oaspetele a mâncat puiul? Dacă da, atunci este un non-vegetarian.
Dacă nu, atunci o veți trece la următoarea variabilă, care este oaspetele a mâncat carne de oaie?
Dacă da, atunci este un non-vegetarian. Dacă nu, atunci o veți trece la următoarea variabilă, care
este fructele de mare. Dacă a mâncat fructe de mare, atunci nu este vegetarian. Dacă nu, atunci
este vegetarian. Așa funcționează un arbore de decizie. Este un algoritm foarte simplu pe care îl
puteți înțelege cu ușurință. Are litere trase, ceea ce este foarte ușor de înțeles. Acum să înțelegem
structura unui arbore de decizie.
Tocmai v-am arătat un exemplu despre cum funcționează arborele de decizie. Acum,
permiteți-mi să iau același exemplu și să vă spun structura pentru arborele de decizie. Deci, în
primul rând, avem ceva cunoscut sub numele de nodul rădăcină. Nodul rădăcină este punctul de
plecare al unui arbore de decizie. Aici veți efectua prima împărțire și o veți împărți în alte două
noduri sau alte trei noduri, în funcție de declarația problemei dvs. Deci, cel mai mare nod este
cunoscut sub numele de nodul rădăcină. Acum, despre nodul rădăcină, nodul rădăcină este
atribuit unei variabile care este foarte semnificativă, ceea ce înseamnă că acea variabilă este
foarte importantă în prezicerea rezultatului. Deci atribuiți o variabilă care credeți că este cea mai
semnificativă la nodul rădăcină. După aceea, avem ceva cunoscut sub numele de noduri interne.
Deci fiecare nod intern reprezintă un punct de decizie care duce în cele din urmă la ieșire.
Nodurile interne vor avea alte variabile predictoare. Fiecare dintre acestea nu reprezintă nimic
predictor. Tocmai am făcut din asta o întrebare, altfel acestea sunt doar variabile predictoare.
Acestea sunt noduri interne. Nodurile terminale, cunoscute și sub denumirea de nodul frunză,
reprezintă clasa finală a variabilei de ieșire, deoarece acestea sunt practic rezultatele dvs., non-
vegetale și vegetariene.
Ramurile nu sunt altceva decât conexiuni între noduri. Aceste conexiuni sunt legături
între fiecare nod cunoscut ca o ramură și sunt reprezentate de săgeți. Deci, fiecare ramură va
avea un răspuns la ea, fie da sau nu, adevărat sau fals, unu sau zero și așa mai departe. Bine.
Deci, aceasta este structura unui arbore de decizie. Acum să trecem mai departe și vom înțelege
cum funcționează algoritmul arborelui de decizie. Acum există multe modalități de a construi un
arbore de decizie, dar mă voi concentra pe ceva cunoscut sub numele de algoritmul ID3. Acesta
este una dintre modalitățile prin care puteți construi arborele de decizie. ID3 reprezintă
algoritmul Iterative Dichotomiser 3, care este unul dintre cei mai eficienți algoritmi utilizați
pentru a construi un arbore de decizie. Folosește conceptele de entropie și câștig de informații
pentru a construi un arbore de decizie. Acum nu trebuie să știți ce este exact algoritmul ID3. Este
doar un concept din spatele construirii unui arbore de decizie. Acum algoritmul ID3 are
aproximativ șase pași definiți pentru a construi un arbore de decizie.
Deci, primul pas este să selectați cel mai bun atribut. Acum ce vrei să spui prin cel mai
bun atribut? Deci, atributul nu este altceva decât variabila predictor de aici. Deci, veți selecta cea
mai bună variabilă de predicție. Să-l numim A. După aceea, veți atribui acest A ca variabilă de
decizie pentru nodul rădăcină. Practic, veți atribui această variabilă predictor A la nodul
rădăcină. În continuare, ceea ce vei face este pentru fiecare valoare a lui A, vei construi un
descendent al nodului. Acum, acești trei pași, să ne uităm la asta cu exemplul anterior. Acum,
aici, cel mai bun atribut este să mănânci pui. Bine, aceasta este cea mai bună variabilă a mea de
atribut de aici. Așa că am ales acel atribut. Și care este următorul pas? Pasul doi a fost atribuit ca
o variabilă de decizie. Așa că am atribuit eat chick ca variabilă de decizie la nodul rădăcină.
Acum s-ar putea să vă întrebați de unde știu care este cel mai bun atribut. Îți voi explica toate
astea peste un timp. Deci, ceea ce am făcut a fost că am atribuit acest alt nod rădăcină. După
aceea, pasul numărul trei spune pentru fiecare valoare a lui A, construiți un descendent al
nodului. Deci, pentru fiecare valoare a acestei variabile, construiți un nod descendent. Deci,
această variabilă poate lua două valori, da și nu. Deci, pentru fiecare dintre aceste valori,
construiesc un nod descendent. Pasul numărul patru, atribuiți etichete de clasificare nodului
frunză. Nodului tău de frunze, am atribuit clasificarea una ca non-veg, iar celălalt este vegetal.
Acesta este pasul numărul patru. Pasul numărul cinci este dacă datele sunt clasificate corect,
atunci te oprești la asta. Cu toate acestea, dacă nu este, atunci continuați să repetiți peste arbore și
continuați să schimbați poziția variabilelor predictoare în arbore sau schimbați și nodul rădăcină
pentru a obține rezultatul corect. Așa că acum permiteți-mi să răspund la această întrebare. Care
este cel mai bun atribut? Ce înțelegeți prin cel mai bun atribut sau cea mai bună variabilă de
predicție? Acum, cel mai bun atribut este cel care separă datele în diferite clase, cel mai eficient,
sau este practic o caracteristică care împarte cel mai bine setul de date. Acum următoarea
întrebare din capul tău trebuie să fie cum decid ce variabilă sau care caracteristică împarte cel
mai bine datele. Pentru a face acest lucru, există două măsuri importante.
Există ceva cunoscut sub numele de câștig de informații și există ceva cunoscut sub
numele de entropie. Acum, pentru a înțelege câștigul de informații și entropia, ne uităm la o
enunțare simplă a problemei. Aceste date reprezintă viteza unei mașini pe baza anumitor
parametri. Deci, declarația noastră de problemă aici este să studiem setul de date și să creăm un
arbore de decizie care clasifică viteza mașinii ca fiind lentă sau rapidă. Deci variabilele noastre
de predicție aici sunt tipul drumului, obstacolul și limita de viteză și/sau variabila de răspuns, sau
variabila noastră de ieșire este viteza. Deci, vom construi un arbore de decizie folosind aceste
variabile pentru a prezice viteza mașinii. Acum, așa cum am menționat mai devreme, trebuie să
începem prin a decide o variabilă care împarte cel mai bine setul de date și să atribuim acea
variabilă particulară nodului rădăcină și să repetam același lucru și pentru alte noduri. Deci,
primul pas, așa cum am discutat mai devreme, este să selectați cel mai bun atribut A. Acum, de
unde știți care variabilă separă cel mai bine datele? Variabila cu cel mai mare câștig de informații
derivă cel mai bine datele în clasele de ieșire dorite. În primul rând, vom calcula două măsuri.
Vom calcula entropia și câștigul de informații. Acum, aici vă știe ce este exact entropia și ce este
exact câștigul de informații. Acum, entropia este folosită practic pentru a măsura impuritatea sau
incertitudinea prezentă în date. Este folosit pentru a decide modul în care un arbore de decizie
poate împărți datele. Câștigul de informații, pe de altă parte, este cea mai semnificativă măsură
care este utilizată pentru a construi un arbore de decizie. Indică câte informații ne oferă o
anumită variabilă despre rezultatul final. Prin urmare, câștigul de informații este important,
deoarece este folosit pentru a alege o variabilă care împarte cel mai bine datele la fiecare nod
pentru un arbore de decizie. Acum variabila cu cel mai mare câștig de informații va fi folosită
pentru a împărți datele la nodul rădăcină. Acum, în setul nostru de date, există patru observații.
Deci, ceea ce vom face este să începem prin a calcula entropia și câștigul de informații
pentru fiecare dintre variabilele de predicție. Deci vom începe prin a calcula câștigul de
informații și entropia pentru variabila tip drum. În setul nostru de date, puteți vedea că există
patru observații. Există patru observații în coloana tip drum, care corespunde celor patru etichete
din coloana viteză. Deci vom începe prin a calcula câștigul de informații al nodului părinte.
Nodul părinte nu este altceva decât viteza nodului de îngrijire. Aceasta este variabila noastră de
ieșire, corect? Va fi folosit pentru a arăta dacă viteza mașinii este lentă sau rapidă. Deci, pentru a
afla câștigul de informații al vitezei variabilei mașinii, vom parcurge câțiva pași. Acum știm că
există patru observații în acest nod părinte. În primul rând, avem lent. Apoi, din nou avem lent,
rapid și rapid. Acum, din aceste patru observații, avem două clase. Deci două observații aparțin
clasei lente, iar două observații aparțin clasei rapide. Așa se calculează P lent și P rapid. P slow
este nimic după fracția rezultatelor lente din nodul părinte, iar P rapid este fracția rezultatelor
rapide din nodul părinte. Și formula pentru a calcula P lent este numărul de rezultate lente din
nodul părinte împărțit la numărul total de rezultate. Deci numărul de rezultate lente în nodul
părinte este de două, iar numărul total de rezultate este de patru. Avem în total patru observații.
Deci, așa obținem P de lent ca 0,5. În mod similar, pentru P de rapid, veți calcula numărul
de rezultate rapide împărțit la numărul total de rezultate. Deci, din nou, doi câte patru, veți obține
0,5. Următorul lucru pe care îl veți face este să calculați entropia acestui nod. Deci, pentru a
calcula entropia, aceasta este formula. Tot ce trebuie să faceți este să înlocuiți valoarea, va trebui
să înlocuiți valoarea din această formulă. Deci P de lent înlocuim ca 0,5. În mod similar, P rapid
ca 0,5. Acum, când înlocuiți valoarea, veți obține un răspuns de unul. Deci entropia nodului
părinte este una. Deci, după calcularea entropiei nodului părinte, vom calcula câștigul de
informații al nodului copil. Acum, băieți, amintiți-vă că, dacă câștigul de informații al variabilei
tip drum este mare decât câștigul de informații al tuturor celorlalte variabile predictoare, doar
atunci nodul rădăcină poate fi divizat folosind variabila tip drum. Deci, pentru a calcula câștigul
de informații al variabilei tip drum, mai întâi trebuie să împărțim nodul rădăcină cântând
variabila tip drum. Facem asta doar pentru a verifica dacă variabila tip drum ne oferă informații
maxime despre o dată. Bine, deci dacă observați că tipul de drum are două rezultate, are două
valori, fie abrupte, fie plat. Acum reveniți la setul nostru de date. Deci, aici ceea ce puteți
observa este ori de câte ori tipul de drum este abrupt, așa că mai întâi ceea ce vom face este să
verificăm valoarea vitezei pe care o obținem atunci când tipul de drum este abrupt. Deci, în
primul rând, observația. Vedeți că ori de câte ori tipul de drum este abrupt, obțineți o viteză
lentă. În mod similar, în a doua observație, când tipul de drum este abrupt, veți obține din nou o
valoare a lent. Dacă tipul de drum este plat, veți obține o observație rapidă. Și din nou, dacă este
abruptă, există o valoare a rapidului. Deci, pentru trei valori abrupte, avem lent, lent și rapid. Și
când tipul de drum este plat, vom obține un rezultat rapid. Exact asta am făcut în acest arbore de
decizie. Deci, ori de câte ori tipul de drum este abrupt, veți deveni lent, încet sau rapid. Și ori de
câte ori tipul de drum este plat, vei ajunge rapid. Acum, entropia părții din dreapta este zero.
Entropia nu este altceva decât incertitudinea. Nu există nicio incertitudine aici. Pentru că de
îndată ce vezi că tipul de drum este plat, ieșirea ta este rapidă. Deci nu există incertitudine. Dar
când tipul de drum este abrupt, puteți avea oricare dintre următoarele rezultate, fie viteza va fi
lentă, fie poate fi rapidă. Deci, veți începe prin a calcula entropia RHS și LHS a arborelui de
decizie. Deci, entropia pentru nodul copil din partea dreaptă va fi zero, deoarece nu există nicio
incertitudine aici. Imediat, dacă vezi că tipul de drum este plat, viteza mașinii va fi mare.
Bine, deci nu există nicio incertitudine aici și, prin urmare, entropia ta devine zero.
Acum, entropia pentru partea stângă este că va trebui din nou să calculăm fracția de P lent și
fracția de P rapid. Deci din trei observații, în două observații avem lent. De aceea avem doi câte
trei aici. În mod similar pentru P fast, avem un P fast împărțit la numărul total de observații care
sunt trei. Deci, din aceste trei, avem două încetini și unul rapid. Când calculați P lent și P rapid,
veți obține aceste două valori. Și atunci când înlocuiți entropia în această formulă, veți obține
entropia ca 0,9 pentru variabila tip drum. Sper că toți înțelegeți acest lucru. Voi trece din nou
prin asta. Deci, practic, aici calculăm câștigul de informații și entropia pentru variabila tip drum.
Ori de câte ori luați în considerare tipul de drum variabil, există două valori, abrupt și plat. Și ori
de câte ori valoarea pentru tipul de drum este abruptă, veți obține oricare dintre aceste trei
rezultate, fie că veți deveni lent, lent sau rapid. Și când tipul de drum este plat, rezultatul va fi
rapid. Acum, deoarece nu există nicio incertitudine atunci când tipul de drum este plat, veți
obține întotdeauna un rezultat rapid. Aceasta înseamnă că aici entropia este zero, sau valoarea
incertitudinii aici este zero. Dar aici, există multă incertitudine. Deci, ori de câte ori tipul de
drum este abrupt, ieșirea poate fi fie lentă, fie rapidă. Deci, în sfârșit, obțineți Python ca 0.9. Deci
pentru a calcula câștigul de informații al variabilei tip drum. Trebuie să calculați media
ponderată. Îți voi spune de ce. Pentru a calcula câștigul de informații, trebuie să cunoașteți
entropia părintelui, pe care o calculăm ca una, minus media ponderată în entropia copiilor. Bine.
Deci, pentru această formulă, trebuie să calculați toate aceste valori. Deci, în primul rând, trebuie
să calculați entropia mediei ponderate. Acum, numărul total de rezultate din nodul părinte pe
care l-am văzut a fost de patru. Numărul total de rezultate în nodul copil stâng a fost de trei. Și
numărul total de rezultate în nodul copil drept a fost unul. Pentru a verifica acest lucru cu dvs.,
numărul total de rezultate din nodul părinte este de patru. Unu, doi, trei și patru. Venind la nodul
copil, care este tipul de drum, numărul total de rezultate din partea dreaptă a nodului copil este
unul. Și numărul total de rezultate din partea stângă a nodului copil este de trei. Exact asta am
scris aici. Bine, sper că ați înțeles cu toții aceste trei valori. După aceea, tot ce trebuie să faceți
este să înlocuiți aceste valori în această formulă. Deci, când faci asta, vei obține entropia copiilor
cu media ponderată va fi în jur de 0,675.
Acum înlocuiți doar valoarea din această formulă. Deci, dacă calculați câștigul de
informații al variabilei tip drum, veți obține o valoare de 0,325. Acum, folosind aceeași metodă,
veți calcula câștigul de informații pentru fiecare dintre variabilele de predicție, pentru tipul de
drum, pentru obstacol și pentru limita de viteză. Acum, când urmați aceeași metodă și calculați
câștigul de informații, veți obține aceste valori. Acum, ce denotă acest câștig de informații pentru
tipul de drum egal cu 0,325? Acum, valoarea 0,325 pentru tipul de drum indică faptul că obținem
foarte puțin câștig de informații din această variabilă de tip de drum. Și pentru obstrucție, avem
literalmente un câștig de informații de zero. În mod similar, informațiile obținute pentru limita de
viteză sunt una. Aceasta este cea mai mare valoare pe care o avem pentru obținerea de informații.
Aceasta înseamnă că va trebui să folosim variabila limită de viteză la nodul nostru rădăcină
pentru a împărți setul de date. Așa că, băieți, nu vă confundați cu ce variabilă vă oferă câștigul
maxim de informații. Variabila respectivă trebuie aleasă la nodul rădăcină. Deci, de aceea avem
nodul rădăcină ca limită de viteză. Deci, dacă ați menținut limita de viteză, atunci veți merge
încet. Dar dacă nu ați menținut limita de viteză, atunci viteza mașinii dvs. va fi rapidă. Entropia
ta este literalmente zero, iar informațiile tale sunt una, ceea ce înseamnă că poți folosi această
variabilă la nodul rădăcină pentru a împărți setul de date, deoarece limita de viteză vă oferă
câștigul maxim de informații.
Sper că acest caz de utilizare este clar pentru voi toți. Pentru a rezuma totul, o să vă repet
totul încă o dată. Deci, practic, aici vi s-a dat o declarație de problemă pentru a crea un arbore de
decizie care clasifică viteza unei mașini ca fiind lentă sau rapidă. Deci ți s-au dat trei variabile
predictoare și aceasta a fost variabila ta de ieșire. Informațiile obținute în entropie sunt practic
două măsuri care sunt utilizate pentru a decide ce variabilă va fi atribuită nodului rădăcină al
unui arbore de decizie. Bine. Deci băieți, de îndată ce vă uitați la setul de date, dacă comparați
aceste două coloane, adică limita de viteză și viteza, veți obține cu ușurință o ieșire. Înseamnă că
dacă menții limita de viteză, vei merge încet. Dar dacă nu menții limita de viteză, vei merge la un
post. Deci, aici în sine putem înțelege că limita de viteză nu are nicio incertitudine. Așa că de
fiecare dată când ți-ai menținut limita de viteză, vei merge încet și de fiecare dată când îți vei
menține limita de viteză, vei merge rapid. E la fel de simplu. Deci cum ai început? Deci ați
început prin a calcula entropia nodului părinte. Ați calculat entropia nodului părinte, care sa
redus la unul. Bine. După aceea, ați calculat câștigul de informații al fiecărui nod copil. Pentru a
calcula câștigul de informații al nodului copil, statistici calculând entropia părții din dreapta și
din partea stângă a arborelui de decizie. Bine. Apoi calculați entropia împreună cu media
ponderată. Înlocuiți aceste valori în formula câștig de informații și obțineți câștigul de informații
pentru fiecare dintre variabilele predictoare. Deci, după ce obțineți câștigul de informații al
fiecăreia dintre variabilele de predicție, verificați care variabilă vă oferă câștigul maxim de
informații și atribuiți acea variabilă nodului rădăcină. E la fel de simplu.
Partea 4- Algoritmi nesupravegheați +
K-means clustering

Să vorbim despre algoritmii de învățare nesupravegheată. Aceștia pot încerca să rezolve


problemele de grupare.
K-means clustering - cel mai important algoritm de clustering. Vom discuta despre
algoritmul K-means și, de asemenea, veți vedea o demonstrație în care va fi executat algoritmul
de grupare și cum a fost implementat pentru a rezolva o problemă. Scopul principal al
algoritmului K-means este de a grupa elemente similare sau puncte de date într-un cluster.
Practic, este procesul prin care obiectele sunt clasificate. Ne interesează un număr predefinit de
grupuri, astfel încât acestea să fie cât mai diferite de la un grup la altul, dar cât mai asemănătoare
în cadrul fiecărui grup.
Exemplu : încercați să grupați o populație în grupuri diferite, astfel încât fiecare grup să
aibă oameni care se încadrează într-un interval de vârstă specificat.
Să presupunem că :
 grupul 1 este format din persoane cu vârsta cuprinsă între 18 - 22 de ani.
 În mod similar, grupul 2 este format din persoane între 23 - 35 de ani.
 grupul 3 este 36 - 39 sau ceva de genul ăsta.
Deci, să presupunem că încercați să grupați oamenii în grupuri diferite în funcție de
vârsta lor. Pentru astfel de probleme, puteți utiliza algoritmul de grupare K-means.
Una dintre aplicațiile majore ale algoritmului de clustering este văzută în marketingul
direcționat. Marketingul direcționat se referă la comercializarea unui anumit produs către un
anumit public.
Să presupunem că încercați să vindeți haine de lux, set de genți de lux etc. Iar publicul
perfect pentru un astfel de produs ar fi adolescenții. Ar fi oameni cu vârsta cuprinsă între 16 - 21
sau 18 ani.
Așa că la asta se referă marketingul țintă. Produsul dvs. este comercializat unui anumit
public care ar putea fi interesat de el. Acesta este marketingul vizat. Deci K înseamnă că
gruparea este utilizată în principal în marketingul direcționat.
Toate site-urile de comerț electronic precum Amazon, Flipkart, eBay folosesc algoritmi
de grupare pentru a viza publicul potrivit.
Cum funcționează gruparea K-means?
K înseamnă numărul de clustere. Să presupunem că vă este oferit un set de date care
conține 20 de puncte și doriți să grupați acest set de date în patru grupuri. Asta înseamnă că K va
fi egal cu patru. Deci K reprezintă practic numărul de clustere în setul dvs. de date sau numărul
de clustere pe care doriți să le formați. Începeți prin a defini numărul K.
Acum, pentru fiecare dintre aceste clustere, veți alege un centroid. Pentru fiecare cluster,
există patru clustere în setul nostru de date. Pentru fiecare dintre aceste clustere, veți selecta
aleatoriu unul dintre punctele de date ca centroid. Acum ceea ce veți face este să începeți să
calculați distanța de la acel centroid până la orice alt punct din acel cluster.
Pe măsură ce continuați să calculați centroidul și distanța dintre centroid și alte puncte de
date din acel cluster, centroidul continuă să se schimbe, pentru că încercăm să ajungem la media
acelui cluster. Ori de câte ori încercați să ajungeți la media clusterului, centroidul continuă să se
deplaseze, deoarece centroidul continuă să tindă spre același punct și continuă să se deplaseze.
Să încercăm să înțelegem cum funcționează K-means: Să spunem că ne este dat un set de
date. Să presupunem că ni se dau puncte aleatoare ca acestea și se cere să folosești algoritmul K-
means în acest sens.
Primul pas va fi să decidem numărul de clustere pe care dorim să le creăm. Deci, să
presupunem că vrem să creem trei grupuri diferite.Valoarea K va fi egală cu trei.
Următorul pas va fi furnizarea de centroizi a tuturor clusterelor. Ceea ce vom face este
inițial să alegem aleatoriu trei puncte de date ca centroizi pentru cele trei clustere diferite. Deci,
practic, acest roșu denotă centroidul pentru un cluster. Albastrul denotă un centroid pentru un alt
cluster, iar punctul verde denotă centroidul pentru un alt cluster.
Astfel în K-means, algoritmul va calcula distanța euclidiană a punctelor de la fiecare
centroid și se vor atribui punctele celui mai apropiat cluster. Acum, din moment ce am avut trei
centroizi, acum ceea ce vom face este să calculăm distanța de la fiecare punct de date la toți
centroizii și vom verifica care punct de date este cel mai aproape de care centroid. .
Deci, să presupunem că punctul nostru de date A este cel mai apropiat de centroidul
albastru. Veți atribui punctul de date A clusterului albastru. Deci, pe baza distanței dintre
centroid și cluster, vom forma trei grupuri diferite. Acum, din nou, vom calcula centroidul și
vom forma un nou cluster care este din clustere mai bune, pentru că recalculăm toți acei
centroizi. Practic, centroizii reprezintă media fiecărui cluster. Așadar, trebuie să ne asigurăm că
media este de fapt centroidul fiecărui cluster. Deci vom continua să recalculăm acești centroizi
până când poziția centroidului nu se schimbă.
Asta înseamnă că centroidul nostru este de fapt principalul sau media acelui cluster
anume.
Deci așa funcționează K-means. E foarte simplu. Tot ce trebuie să faci este să începi prin
a defini valoarea K. După aceea, trebuie să alegeți aleatoriu numărul de centroizi de caz. Apoi
veți calcula distanța medie a fiecăruia dintre punctele de date față de centroizi și veți atribui un
punct de date centrului de care este cel mai apropiat.. Tot ce trebuie să faceți este să continuăm
să iterăm și trebuie să recalculați valoarea centroidului până când valoarea centroidului nu se
schimbă, până când obțineți o valoare a centroidului constantă.
In K-means, utilizați măsuri de distanță precum Euclidean. Am discutat deja despre ce
este Euclidean.
Pentru a rezuma modul în care funcționează K-means, începeți prin a alege numărul de
clustere. Apoi alegeți un centroid. După aceea, calculați distanța obiectelor față de centroid. Apoi
grupați punctele de date în grupuri specifice în funcție de distanța lor. Trebuie să continuați să
calculați centroidul până când fiecare punct de date este alocat celui mai apropiat cluster.
Acum să ne uităm la metoda cotului. Metoda cotului este utilizată practic pentru a afla
cea mai optimă valoare K pentru o anumită problemă. Metoda cotului este de fapt destul de
simplă. Începeți prin a calcula suma erorilor pătrate pentru unele valori ale lui K. Acum, suma
erorilor pătrate este practic suma distanței pătrate dintre fiecare membru al clusterului și
centroidul acestuia. Practic, calculați suma erorilor pătrate pentru diferite valori ale lui K. De
exemplu, puteți considera valoarea K ca doi, patru, șase, opt, 10, 12.
Luați în considerare toate aceste valori, calculați suma erorilor pătrate pentru fiecare
dintre aceste valori. Acum, dacă trasați valoarea K în raport cu suma erorilor pătrate, veți vedea
că eroarea scade pe măsură ce K devine mai mare. Acest lucru se datorează faptului că numărul
de clustere crește. Dacă numărul de clustere crește, înseamnă că distorsiunea devine mai mică.
Distorsiunea continuă să scadă pe măsură ce numărul de clustere crește. Asta pentru că cu cât
aveți mai multe clustere, cu atât fiecare centroid va fi mai aproape de punctele sale de date.
Deci, pe măsură ce creșteți numărul de clustere, distorsiunea dvs. va scădea și ea. Deci
ideea metodei cotului este de a alege K la care distorsiunea scade brusc. Deci, dacă te uiți la acest
grafic la K egal cu patru, distorsiunea scade brusc. Deci, așa găsiți valoarea lui K. Când
distorsiunea scade brusc, aceasta este cea mai optimă valoare K pe care ar trebui să o alegeți
pentru enunțul problemei.
Aceasta este metoda cotului. Este foarte simplă și poate fi ușor de implementat.

Part 5- AI vs MachineLearning vs
DeepLearning

 Acum am terminat cu machine learning. Am finalizat întregul model despre învățarea


automată. Am înțeles învățarea prin consolidare, învățarea supravegheată, învățarea
nesupravegheată și așa mai departe.
Înainte de a ajunge la învățarea profundă, vreau să clarific o concepție greșită foarte
comună. Mulți oameni se confundă între învățarea automată AI și învățarea profundă, deoarece,
știți, inteligența artificială, învățarea automată și învățarea profundă sunt aplicații foarte comune.
De exemplu, Siri este o aplicație a inteligenței artificiale, a învățării automate și a învățării
profunde. Deci cum sunt conectate aceste trei?
Sunt același lucru sau cum este exact relația dintre inteligența artificială, învățarea
automată și învățarea profundă? Acesta este ceea ce voi discuta. acum inteligența artificială este
practic știința de a face ca mașinile să imite comportamentul ființelor umane. Dar când vine
vorba de învățarea automată, învățarea automată este un subset al inteligenței artificiale care se
concentrează pe a determina mașinile să ia decizii prin furnizarea de date. Exact asta este
învățarea automată. Este un subset al inteligenței artificiale.
Învățarea profundă, pe de altă parte, este un subset al învățării automate care utilizează
conceptul de rețele neuronale pentru a rezolva probleme complexe. Deci, pentru a rezuma,
inteligența artificială, învățarea automată și învățarea profundă sunt domenii interconectate.
Învățarea automată și învățarea profundă ajută inteligența artificială prin furnizarea unui set de
algoritmi și rețele neuronale pentru a rezolva problemele bazate pe date.
Așa sunt legate AI, învățarea automată și învățarea profundă. Sper că toți v-ați curățat
concepțiile greșite și îndoielile despre AI, ML și învățarea profundă.

S-ar putea să vă placă și