Documente Academic
Documente Profesional
Documente Cultură
regresie
Ce veți învăța în acest curs
• Variabile:
• Luni: timpul petrecut de vânzător în companie
• Vânzări: numărul de echipamente vândute
Modelul de regresie liniară
Deși linia dreaptă nu este o descriere tocmai rea, de fapt relația reală
este mai curând curbilinie. Ce implicații derivă de aici?
Important:
• Cea de-a doua parte a acestei prime ipoteze, mai exact faptul că
“modelul este corect specificat”, va fi discutată atunci când vom
introduce regresia cu mai multe variabile independente
• În esență, această parte se referă la faptul că trebuie sa luăm în calcul
pentru modelul nostru toate variabilele explicative care sunt
relevante.
• Paradoxul Simpson, pe care îl vom discuta după ce vom introdice
regresia multiplă, este un exemplu de consecință a încălcării acestei
ipoteze.
Cum știm dacă această ipoteză este îndeplinită?
Modelul Reynolds
Observații
Exemplu:
• Aveți un venit de 500 de lei pe lună
• Cât de mult cheltuiți din acest venit?
Comentarii
• Cel mai probbail, veți cheltui toți banii pentru că trebuie să vă acoperiți
nevoile de bază. Puțin probabil să vă permiteți să economisiți.
• Dacă venitul vă crește la 1,000 lei/lună, vă permiteți ceva economii? Cât de
mult?
• Dar dacă aveți un venit de 4,000 lei/lună?
• Ideea este că veți întâlni variații mai mari ale sumelor cheltuite, atunci când
venitul crește.
• Unii vor cheltui tot, alții mai puțin, dar la un venit mai mare aveți alegere
• Astfel, cu cât venitul crește, dispersia cheltuielilor în același grup de venit
crește de asemenea
Exemplu
• Prețul inelelor cu diamant ca funcție de dimensiunea lor (numărul de
carate)
• Date: diamond
• Variabile:
• Preț – variabla dependentă
• Dimensiunea – variabla explicativă (independentă)
O apariție “standard” a heteroscedasticității
Pe măsură ce greutatea diamantului crește, prețul devine mai variabil
Să vedem modelul
Arată bine, dar…
Să verificăm graficele “diagnostic”
Relația nu pare a fi liniară
• Două dimensiuni:
• Cross – sectional: un număr de unități statistice diferite, măsurate la un
același moment în timp (ex: județe, persoane, țări)
• Temporală: o aceeași unitate statistcă observată în mai multe momente
succesive (ex: 1997 – 2015)
Problema independenței
Modul în care rezolvăm problema semnalată de ipoteza 3 depinde de mai mulți factori.
Metode de rezolvare
• Atunci când lucrăm cu serii de timp, luăm în calcul lag – uri (valori ale
variabilei din perioade anterioare)
• Cel de-al doilea grafic din cele patru (a se vedea funcția plot(model))
ne spune dacă această ipoteză este îndeplinită.
• Dacă reziduurile urmează o linie dreaptă, atunci totul este în regulă.
Plot – ul diagnostic
Trebuie să avem aici o linie dreaptă; aceasta este în regulă,
mai puțin coada din dreapta unde se pot observa
câteva valori extreme
• Variabile:
• Vânzări
• Populație
Diagrama scatter
Acesta este un punct care nu se înscrie în trendul celorlalte observații
Să vedem modelul
Coeficienții diferă un pic de cei din modelul original, deși am modificat doar o observație
Eliminăm outiler – ul și păstrăm restul datelor neschimbat
Modelul este mai aproape de cel original!
Observații
• Deși prezența outlier – ului a modificat coeficienții estimați ai
modelului, coeficienții cei noi sunt destul de aproape de anteriorii
• Atunci când outlier – ul este eliminat, modelul pentru datele rămase
se apropie foarte mult de modelul original.
Exemplul 2 - Diagrama scatter
Acesta este acum punctul care nu se încadrează în trendul datelor
Să vedem modelul
Un punct cu
levier mare
Acesta este un caz tipic de situație în care, din cauza unui outlier,
modelul nostru nu poate capta caracteristici importante ale datelor
Detectarea observațiilor influențiale
• Le putem detecta pe baza diagramei scatter, dar metoda funcționează
doar pentru singură variabilă independentă
Deși este prezent un punct cu levier mare, coeficienții nu sunt prea afectați.
De fapt: