Documente Academic
Documente Profesional
Documente Cultură
Răspuns: Iată câteva dintre concluziile pe care le-am făcut din analiza mea a variabilelor
categorice din setul de date privind variabila dependentă (Count)
2. Toamna are cea mai mare mediană, care este de așteptat, deoarece condițiile
meteorologice sunt cele mai optime pentru a merge cu bicicleta urmată de vară.
3. Chiriile medii de biciclete cresc de la an la an, deoarece anul 2019 are o medie mai
mare decât 2018, s-ar putea datora faptului că închirierile de biciclete devin populare
și oamenii devin din ce în ce mai conștienți de mediu.
4. Răspândirea generală în parcela lunii reflectă complotul sezonului, deoarece lunile de
toamnă au o mediană mai mare.
5. Oamenii închiriază mai mult în afara vacanțelor în comparație cu vacanțele, astfel
încât motivul ar putea fi că preferă să petreacă timp cu familia și să folosească
mașina personală în loc de închirierea de biciclete.
6. Mediana generală pentru toate zilele este aceeași, dar răspândirea pentru sâmbătă și
miercuri este mai mare, poate fi evident că cei care au planuri pentru sâmbătă ar
putea să nu închirieze biciclete, deoarece este o zi nelucrătoare.
7. Zilele lucrătoare și zilele nelucrătoare au aproape aceeași mediană, deși răspândirea
este mai mare pentru zilele nelucrătoare, deoarece oamenii ar putea avea planuri și
nu doresc să închirieze biciclete din această cauză
8. Vremea senină este cea mai optimă pentru închirierea de biciclete, deoarece
temperatura este optimă, umiditatea este mai mică și temperatura este mai mică.
Răspunde: O variabilă cu n niveluri poate fi reprezentată de n-1 variabile fictive. Deci, dacă
eliminăm prima coloană, atunci, de asemenea, putem reprezenta datele. Dacă valoarea
variabilei de la 2 la n este 0, înseamnă că valoarea variabilei 1 este 1.
Exemplu : "Relație" cu trei niveluri, și anume, "Singur", "Într-o relație" și "Căsătorit", aș crea
un tabel fals ca următorul:
Starea relației Singur Într-o relație Căsătorit
Singur 1 0 0
Într-o relație 0 1 0
Căsătorit 0 0 1
Dar pot vedea clar că nu este nevoie să definim trei niveluri diferite. Dacă scad un nivel, spun
"Singur", tot aș putea explica cele trei niveluri.
Să renunțăm la variabila falsă "Single" din coloane și să vedem cum arată tabelul:
Singur 0 0
Într-o relație 1 0
Căsătorit 0 1
Dacă ambele variabile fictive, și anume "Într-o relație" și "Căsătorit", sunt egale cu zero,
înseamnă că persoana este singură. Dacă "Într-o relație" este unu și "Căsătorit" este zero,
înseamnă că persoana este într-o relație și, în cele din urmă, dacă "Într-o relație" este zero și
"Căsătorit" este 1, înseamnă că persoana este căsătorită.
3. Privind graficul pereche dintre variabilele numerice, care dintre ele are
cea mai mare corelație cu variabila țintă?
Y = 0+1x1+2x2+3x3+.. + Bnxn
• Variabila prezisă este mai mare decât cea comparată cu datele de testare și ipotezele
sunt verificate.
Răspunde: Cvartetul lui Anscombe cuprinde patru seturi de date care au statistici descriptive
simple aproape identice, dar au o distribuție destul de diferită atunci când sunt vizualizate
grafic. Statisticile simple constau în medie, varianța eșantionului x și y, coeficientul de
corelație, linia de regresie liniară și valoarea R-pătrat. Cvartetul Anscombe arată că mai
multe seturi de date cu multe proprietăți statistice similare pot fi foarte diferite unul de
celălalt atunci când sunt grafice. Graficele sunt prezentate mai jos:
Sursă imagine - https://en.wikipedia.org/wiki/Anscombe%27s_quartet
3. Prima reprezentare grafică (stânga sus) pare a fi o relație liniară simplă
4. Al doilea grafic (dreapta sus) nu este distribuit normal, iar coeficientul de corelație
este irelevant, deoarece arată o relație neliniară
5. A treia parcelă (stânga jos) este liniară, dar are o linie de regresie diferită. Acest lucru
se întâmplă din cauza valorilor aberante prezente în date
6. Al patrulea grafic (dreapta jos) nu prezintă o relație liniară, totuși, din cauza valorilor
aberante, statisticile au fost ajustate.
Pe scurt, este o practică mai bună să vizualizați datele și să eliminați valorile aberante înainte
de a le analiza.
3. Ce este Pearson's R?
Răspunde: R al lui Pearson măsoară puterea de asociere a două variabile. Este covarianța a
două variabile împărțită la produsul deviației lor standard. Are o valoare de la +1 la -1.
• O valoare de 1 înseamnă o corelație liniară pozitivă totală. Aceasta înseamnă că, dacă
o variabilă crește, atunci va crește și alta
• O valoare de 0 înseamnă că nu există nicio corelație
• O valoare de -1 înseamnă o corelație negativă totală. Aceasta înseamnă că dacă o
variabilă crește, atunci alta va scădea
Răspunde: Scalarea unei variabile este efectuată pentru a menține o variabilă într-un anumit
interval. Scalarea este o etapă de pre-procesare în analiza regresiei liniare. Motivul pentru
care scalăm o variabilă este pentru a face calculul coborârii gradientului mai rapid.
Dimensiunea pasului de coborâre a gradientului este în general scăzută pentru precizie, dacă
datele au unele variabile mici (valori în intervalul 0-1) și unele variabile mari (valori în
intervalul 0 -1000), atunci timpul necesar algoritmului de coborâre a gradientului va fi imens.
Răspunde: Un grafic Q-Q este un grafic împrăștiat de două seturi de cuantile unul împotriva
celuilalt. Scopul său este de a verifica dacă cele două seturi de date provin din aceeași
distribuție. Este o verificare vizuală a datelor. Dacă datele provin din aceeași sursă, graficul
va apărea ca o linie.