Sunteți pe pagina 1din 6

Întrebări subiective bazate pe atribuire

1. Din analiza variabilelor categorice din setul de date, ce ați putea


deduce despre efectul lor asupra variabilei dependente?

Răspuns: Iată câteva dintre concluziile pe care le-am făcut din analiza mea a variabilelor
categorice din setul de date privind variabila dependentă (Count)

2. Toamna are cea mai mare mediană, care este de așteptat, deoarece condițiile
meteorologice sunt cele mai optime pentru a merge cu bicicleta urmată de vară.
3. Chiriile medii de biciclete cresc de la an la an, deoarece anul 2019 are o medie mai
mare decât 2018, s-ar putea datora faptului că închirierile de biciclete devin populare
și oamenii devin din ce în ce mai conștienți de mediu.
4. Răspândirea generală în parcela lunii reflectă complotul sezonului, deoarece lunile de
toamnă au o mediană mai mare.
5. Oamenii închiriază mai mult în afara vacanțelor în comparație cu vacanțele, astfel
încât motivul ar putea fi că preferă să petreacă timp cu familia și să folosească
mașina personală în loc de închirierea de biciclete.
6. Mediana generală pentru toate zilele este aceeași, dar răspândirea pentru sâmbătă și
miercuri este mai mare, poate fi evident că cei care au planuri pentru sâmbătă ar
putea să nu închirieze biciclete, deoarece este o zi nelucrătoare.
7. Zilele lucrătoare și zilele nelucrătoare au aproape aceeași mediană, deși răspândirea
este mai mare pentru zilele nelucrătoare, deoarece oamenii ar putea avea planuri și
nu doresc să închirieze biciclete din această cauză
8. Vremea senină este cea mai optimă pentru închirierea de biciclete, deoarece
temperatura este optimă, umiditatea este mai mică și temperatura este mai mică.

2. De ce este important să folosiți drop_first=True în timpul creării


variabilei fictive?

Răspunde: O variabilă cu n niveluri poate fi reprezentată de n-1 variabile fictive. Deci, dacă
eliminăm prima coloană, atunci, de asemenea, putem reprezenta datele. Dacă valoarea
variabilei de la 2 la n este 0, înseamnă că valoarea variabilei 1 este 1.
Exemplu : "Relație" cu trei niveluri, și anume, "Singur", "Într-o relație" și "Căsătorit", aș crea
un tabel fals ca următorul:
Starea relației Singur Într-o relație Căsătorit

Singur 1 0 0

Într-o relație 0 1 0

Căsătorit 0 0 1

Dar pot vedea clar că nu este nevoie să definim trei niveluri diferite. Dacă scad un nivel, spun
"Singur", tot aș putea explica cele trei niveluri.
Să renunțăm la variabila falsă "Single" din coloane și să vedem cum arată tabelul:

Starea relației Într-o relație Căsătorit

Singur 0 0

Într-o relație 1 0

Căsătorit 0 1

Dacă ambele variabile fictive, și anume "Într-o relație" și "Căsătorit", sunt egale cu zero,
înseamnă că persoana este singură. Dacă "Într-o relație" este unu și "Căsătorit" este zero,
înseamnă că persoana este într-o relație și, în cele din urmă, dacă "Într-o relație" este zero și
"Căsătorit" este 1, înseamnă că persoana este căsătorită.

3. Privind graficul pereche dintre variabilele numerice, care dintre ele are
cea mai mare corelație cu variabila țintă?

Răspuns: "temp" a avut cel mai mare coeficient de corelație de 0,63.


4. Cum ați validat ipotezele regresiei liniare după construirea modelului
pe setul de antrenament?

Răspunde: Prin reprezentarea grafică a distribuției reziduurilor. S-a dovedit a fi o distribuție


normală cu o valoare medie de 0.

5. Pe baza modelului final, care sunt primele 3 caracteristici care


contribuie semnificativ la explicarea cererii de biciclete partajate?

Răspunde: Următoarele sunt primele 3 caracteristici care contribuie semnificativ la


explicarea cerințelor bicicletelor comune:
• atemp (0.412)
• an (0.236)
• weathersit Ploaie ușoară (-0.275)
Întrebări subiective generale
1. Explicați algoritmul de regresie liniară în detaliu.

Răspunde: Un algoritm de regresie liniară încearcă să explice relația dintre variabila


independentă și dependentă folosind o linie dreaptă. Se aplică numai variabilelor numerice.
Următorii pași sunt efectuați în timp ce efectuați regresia liniară:
• Setul de date este împărțit în date de testare și de antrenament
• Datele trenurilor sunt împărțite în seturi de date privind entitățile (independente) și
seturile de date țintă (dependente)
• Un model liniar este montat utilizând setul de date de antrenament. Intern, api-urile
din python folosesc algoritmul de coborâre a gradientului pentru a găsi coeficienții
celei mai potrivite linii. Algoritmul de coborâre a gradientului funcționează prin
minimizarea funcției de cost. Un exemplu tipic de funcție de cost este suma reziduală
a pătratelor.
• În cazul entităților multiple, variabila prezisă este un hiperplan în loc de linie.
Variabila prezisă are următoarea formă:

Y = 0+1x1+2x2+3x3+.. + Bnxn
• Variabila prezisă este mai mare decât cea comparată cu datele de testare și ipotezele
sunt verificate.

2. Explicați cvartetul Anscombe în detaliu.

Răspunde: Cvartetul lui Anscombe cuprinde patru seturi de date care au statistici descriptive
simple aproape identice, dar au o distribuție destul de diferită atunci când sunt vizualizate
grafic. Statisticile simple constau în medie, varianța eșantionului x și y, coeficientul de
corelație, linia de regresie liniară și valoarea R-pătrat. Cvartetul Anscombe arată că mai
multe seturi de date cu multe proprietăți statistice similare pot fi foarte diferite unul de
celălalt atunci când sunt grafice. Graficele sunt prezentate mai jos:
Sursă imagine - https://en.wikipedia.org/wiki/Anscombe%27s_quartet
3. Prima reprezentare grafică (stânga sus) pare a fi o relație liniară simplă
4. Al doilea grafic (dreapta sus) nu este distribuit normal, iar coeficientul de corelație
este irelevant, deoarece arată o relație neliniară
5. A treia parcelă (stânga jos) este liniară, dar are o linie de regresie diferită. Acest lucru
se întâmplă din cauza valorilor aberante prezente în date
6. Al patrulea grafic (dreapta jos) nu prezintă o relație liniară, totuși, din cauza valorilor
aberante, statisticile au fost ajustate.

Pe scurt, este o practică mai bună să vizualizați datele și să eliminați valorile aberante înainte
de a le analiza.

3. Ce este Pearson's R?

Răspunde: R al lui Pearson măsoară puterea de asociere a două variabile. Este covarianța a
două variabile împărțită la produsul deviației lor standard. Are o valoare de la +1 la -1.
• O valoare de 1 înseamnă o corelație liniară pozitivă totală. Aceasta înseamnă că, dacă
o variabilă crește, atunci va crește și alta
• O valoare de 0 înseamnă că nu există nicio corelație
• O valoare de -1 înseamnă o corelație negativă totală. Aceasta înseamnă că dacă o
variabilă crește, atunci alta va scădea

4. Ce este scalarea? De ce se efectuează detartrajul? Care este diferența


dintre scalarea normalizată și scalarea standardizată?

Răspunde: Scalarea unei variabile este efectuată pentru a menține o variabilă într-un anumit
interval. Scalarea este o etapă de pre-procesare în analiza regresiei liniare. Motivul pentru
care scalăm o variabilă este pentru a face calculul coborârii gradientului mai rapid.
Dimensiunea pasului de coborâre a gradientului este în general scăzută pentru precizie, dacă
datele au unele variabile mici (valori în intervalul 0-1) și unele variabile mari (valori în
intervalul 0 -1000), atunci timpul necesar algoritmului de coborâre a gradientului va fi imens.

Detartraj normalizat Detartraj standardizat


Numită scalare min max, scalează variabila Valorile sunt centrate în jurul mediei cu o
astfel încât intervalul să fie 0-1 deviație standard unitară
Bun pentru distribuția non-gaussiană Bun pentru distribuția gaussiană
Valoarea id delimitată între 0 și 1 Valoarea nu este mărginită
Valorile aberante sunt, de asemenea, scalate Nu afectează valorile aberante
5. Este posibil să fi observat că uneori valoarea VIF este infinită. De ce se
întâmplă acest lucru?

Răspunde: Formula pentru VIF este


VIFi =
1- R?
Practic, dacă R pătrat este 1, atunci VIF devine infinit. Aceasta înseamnă că există o corelație
perfectă între caracteristici.

6. Ce este un complot Q-Q? Explicați utilizarea și importanța unui grafic


Q-Q în regresia liniară.

Răspunde: Un grafic Q-Q este un grafic împrăștiat de două seturi de cuantile unul împotriva
celuilalt. Scopul său este de a verifica dacă cele două seturi de date provin din aceeași
distribuție. Este o verificare vizuală a datelor. Dacă datele provin din aceeași sursă, graficul
va apărea ca o linie.

S-ar putea să vă placă și