Sunteți pe pagina 1din 56

Ipotezle modelului de

regresie
Ce veți învăța în acest curs

• O scurtă recapitulare a scopului analizei de regresie


• Ipoteze ale modelului de regresie simplă
• Exemple
Aspecte preliminare
• Regresia liniară: explică o variabilă dependentă ca funcție de una sau
mai multe variabile independente; variabila dependentă este una
numerică
• Metoda de estimare: metoda celor mai mici pătrate (uneori se mai
numește regresia OLS, de la acronimul englezesc)
• Ipoteze: ceea ce este necesar să fie îndeplinit pentru ca metoda să fie
bine aplicată
Ipoteze:
• Ipoteza 1: Variabila dependentă este în relație liniară cu variabila
independentă și modelul este corect specificat
• Ipoteza 2: Termenul eroare are dispersie constantă (erori
homoscedastice). Nu există heteroscedasticitate.
• Ipoteza 3: Termenii eroare nu sunt corelați unii cu alții. Altfel spus, nu
există autocorelare serială.
• Ipoteza 4: Termenul eroare este normal distribuit

• Mai sunt și alele, pe care le vom discuta în contextul regresie multiple


Ipoteza 1
• Ipoteza 1: Variabila dependentă este în relație liniară cu variabila
independentă și modelul este corect specificat.

• Exemplu (Anderson et. al. p. 714)


• O companie exploreză relația dintre durata angajării vânzătorilor și
performanța lor în vânzări.
Date:
• Date: Reynolds.xlsx

• Variabile:
• Luni: timpul petrecut de vânzător în companie
• Vânzări: numărul de echipamente vândute
Modelul de regresie liniară

Modelul arată foarte bine, nu? Doar că…


Relația dintre variabile

Deși linia dreaptă nu este o descriere tocmai rea, de fapt relația reală
este mai curând curbilinie. Ce implicații derivă de aici?
Important:
• Cea de-a doua parte a acestei prime ipoteze, mai exact faptul că
“modelul este corect specificat”, va fi discutată atunci când vom
introduce regresia cu mai multe variabile independente
• În esență, această parte se referă la faptul că trebuie sa luăm în calcul
pentru modelul nostru toate variabilele explicative care sunt
relevante.
• Paradoxul Simpson, pe care îl vom discuta după ce vom introdice
regresia multiplă, este un exemplu de consecință a încălcării acestei
ipoteze.
Cum știm dacă această ipoteză este îndeplinită?

• Realizăm o analiză reziduală

• Reprezentăm grafic reziduurile și urmărim o repartizare aleatorie, care


să nu evidențieze niciun fel de tipare, de regularități
sau…
• Folosim fumcția “plot” în R și ne ghidăm după primul grafic (vezi slide
– ul următor)
Plotul reziduurilor:
Observații
• Setul nostru de date conține un număr mic de observații și de aceea
tiparele nu sunt foarte evidente
• Alternativă: reprezentăm grafic reziduurile versus valorile estimate
prin modelul de regresie
• Este primul grafic de pe slide – ul următor
• Căutăm să observăm o linie roșie, dreaptă
Folosirea funcției “plot(model)”
Această curbă roșie arată că reziduurile nu sunt aleator distribuite

Modelul Reynolds
Observații

• Graficul anterior arată că reziduurile urmează un tipar curbiliniu


• Curba roșie indică faptul că modelul nu este liniar
• Mai exact, arată că valori estimate mai mari sunt asociate, pănă la un
punct, cu reziduuri mai mari, după care tendința se inversează
Aceeași funcție “plot(model)”
De data asta este mai bine. Chiar dacă nu este EXACT o linie dreaptă.

Restaurantele fast - food


Cum abordăm o relație neliniară

• De obicei, căutăm o formă funcțională diferită pentru modelul nostru,


în loc să alegem o dreaptă
• Uneori, urmarea anumitor teste, R chiar ne poate recomanda
transformarea potrivită
Ipoteza 2
• Ipoteza 2: Termenul eroare are dispersie constantă (erorile sunt
homoscedastice). Nu este prezent fenomenul de heteroscedasticitate.

Exemplu:
• Aveți un venit de 500 de lei pe lună
• Cât de mult cheltuiți din acest venit?
Comentarii
• Cel mai probbail, veți cheltui toți banii pentru că trebuie să vă acoperiți
nevoile de bază. Puțin probabil să vă permiteți să economisiți.
• Dacă venitul vă crește la 1,000 lei/lună, vă permiteți ceva economii? Cât de
mult?
• Dar dacă aveți un venit de 4,000 lei/lună?

• Ideea este că veți întâlni variații mai mari ale sumelor cheltuite, atunci când
venitul crește.
• Unii vor cheltui tot, alții mai puțin, dar la un venit mai mare aveți alegere
• Astfel, cu cât venitul crește, dispersia cheltuielilor în același grup de venit
crește de asemenea
Exemplu
• Prețul inelelor cu diamant ca funcție de dimensiunea lor (numărul de
carate)

• Date: diamond

• Variabile:
• Preț – variabla dependentă
• Dimensiunea – variabla explicativă (independentă)
O apariție “standard” a heteroscedasticității
Pe măsură ce greutatea diamantului crește, prețul devine mai variabil
Să vedem modelul
Arată bine, dar…
Să verificăm graficele “diagnostic”
Relația nu pare a fi liniară

Heteroscedasticitatea este evidentă aici: linia roșie ar fi trebuit să fie o dreaptă


Cum ne descurcă cu heteroscedasticitatea?

• De obicei, căutăm să adăugăm și alte variabile în model


• Transformari (logaritm, diferentieri etc.)
Ipoteza 3
• Ipoteza 3: Termenii eroare nu sunt corelați unul cu altul. Altfel spus,
nu există corelație serială, sau autocorelație.

• Exemplu: doriți să explorați preferințele consumatorilor pentru o


anume pastă de dinți și intervievați 100 de persoane, din 62 de familii
diferite.
• Ce dimensiune are setul vostru de date?
Când lucrăm cu analiza de regresie

• Explicăm o variabilă prin intermediul alteia


• Avem nevoie de un număr de observații, fiecare aducând propria
informație, deci propria contribuție
• Nevoia de informații independente face să evităm ca informațiile să
fie, de fapt, unul și același lucru
Atunci când lucrăm cu date

• Două dimensiuni:
• Cross – sectional: un număr de unități statistice diferite, măsurate la un
același moment în timp (ex: județe, persoane, țări)
• Temporală: o aceeași unitate statistcă observată în mai multe momente
succesive (ex: 1997 – 2015)
Problema independenței

• Dimensiunea temporală: observația curentă depinde de anterioarele


• Dimensiunea cross – sectional: unitățile statistice similare din
anumite puncte de vedere (ex: aparțin aceleiași familii) tind să poarte
aceeași informație
Dependența cross – sectional

• Persoane din aceeasi familie tind să manifeste preferințe similare


• Studenții aceluiași profesor tind să aibă reprezentări similare asupra
unor concepte
• Județele din aceeași regiune tind să aibă niveluri similare de
dezvoltare
Ce au în comun toate aceste exempe?

Ideea de vecinătate. Socială


Culturală
Spatială
etc…

Modul în care rezolvăm problema semnalată de ipoteza 3 depinde de mai mulți factori.
Metode de rezolvare

• Atunci când lucrăm cu serii de timp, luăm în calcul lag – uri (valori ale
variabilei din perioade anterioare)

• Pentru date de tip cross – sectional, putem lua în considerare


eventuale clustere (grupuri)

(Vom discuta un exemplu atunci când vom introduce regresia cu


variabile calitative. )
Ipoteza 4
• Ipoteza 4: Termenul eroare este normal distribuit.

• Cel de-al doilea grafic din cele patru (a se vedea funcția plot(model))
ne spune dacă această ipoteză este îndeplinită.
• Dacă reziduurile urmează o linie dreaptă, atunci totul este în regulă.
Plot – ul diagnostic
Trebuie să avem aici o linie dreaptă; aceasta este în regulă,
mai puțin coada din dreapta unde se pot observa
câteva valori extreme

Heteroscedasticitatea este evidentă: linia roșie nu este dreaptă


Normalitatea termenului eroare
• Dacă această ipoteză nu este îndeplinită, căutați outlieri (puncte
atipice)

• Putem întâlni două tipuri de outlieri:


• Puncte influențiale
• Puncte cu levier mare

• Fiecare tip are efecte diferite asupra dreptei de regresie


Outlierii și ipotezele modelului
• outlier - o observație din setul de date care nu se aliniază trendului
celorlalte observații

• sunt obervații care trebuie tratate cu multă atenție:


• greșeli în înregistrarea datelor?
• erori de măsurare?
• cazuri specifice care necesită un tratament special?
• outlierii pot semnaliza încălcarea ipotezelor modelului
Exemplul 1
• Fie o serie de date din exemplul restaurantelor fast – food

• Variabile:
• Vânzări
• Populație
Diagrama scatter
Acesta este un punct care nu se înscrie în trendul celorlalte observații
Să vedem modelul

Coeficienții diferă un pic de cei din modelul original, deși am modificat doar o observație
Eliminăm outiler – ul și păstrăm restul datelor neschimbat
Modelul este mai aproape de cel original!
Observații
• Deși prezența outlier – ului a modificat coeficienții estimați ai
modelului, coeficienții cei noi sunt destul de aproape de anteriorii
• Atunci când outlier – ul este eliminat, modelul pentru datele rămase
se apropie foarte mult de modelul original.
Exemplul 2 - Diagrama scatter
Acesta este acum punctul care nu se încadrează în trendul datelor
Să vedem modelul

Coeficienții sunt mult diferiți, deși am schimbat o singură observație


Eliminăm outiler – ul și păstrăm restul datelor neschimbat
Modelul este mai apropiat de modelul original!
Observații
• De data asta, prezența outlier – ului a modificat semnificativ
coeficienții estimați ai modelului

• Atunci când outlier – ul este eliminat, modelul devine foarte apropiat


de cel original
Două diagrame scatter în oglindă
Diferența vine din poziția outlierilor

În acest caz, outlier – ul este apropiat de Aici, outlier – ul este


“centrul” datelor Într-o poziție “extremă”
Observații
• Atunci când outiler – ul este amplasat aproape de “centul” datelor
(media valorilor x) coeficienții estimați abia dacă se modifică, prin
comparație cu coeficienții originali
• Când outlier – ul este amplasat într-o poziție extremă (un punct –
levier), coeficienții estimați se schimbă semnificativ
Alt tip de puncte levier
• Am discutat cazuri în care y lua valori extreme în raport cu restul
datelor
• Există situații în care valorile extreme apar în relație cu variabila
independentă.
• În funcție de poziția lor, și acestea pot fi puncte levier
Exemplul 3 - Diagrama scatter
Outlier – ul este într-o poziție neobișnuită: valoarea lui x este în afara intervalului
de valori pentru restul observațiilor
Să vedem modelul

Coeficiențul estimat pentru variabila explicativă este negativ!!!


Outlier – ul a avut forță să tragă de dreapta de regresie atât de mult, încât
a schimbat natura relației din pozitivă în negativă
Deși dreapta care descrie datele este cea albastră, outlier-ul a inversat sensul relației.

Un punct cu
levier mare

Acesta este un caz tipic de situație în care, din cauza unui outlier,
modelul nostru nu poate capta caracteristici importante ale datelor
Detectarea observațiilor influențiale
• Le putem detecta pe baza diagramei scatter, dar metoda funcționează
doar pentru singură variabilă independentă

• Observațiile poziționate la extremele valorilor variabilei independente


se numesc puncte de levier mare.
Levierul
• Se determină pe baza distanței dintre media valorilor variabilei
independente și poziția punctului analizat
• Pentru cazul unei singure variabile independente, levierul observației
“i” este:
Observații
• Eșantioanele de dimensiune mică sunt în mod special sensibile la outlieri,
pentru că includ puține cazuri care să îi contracareze influența
• Un outlier de regresie este o observație care are o valoare neobișnuită
pentru variabila dependentă Y, condiționată de valorile X
• Un astfel de outlier va avea un reziduu mare, dar nu va afecta în mod
necesar panta regresiei.
• O observație care are o valoare neobișnuită pentru X, deci care este la
distanță mare de media valorilor independentei, are un levier mare și ca
atare potențialul de a influența dreapta de regresie
• Cu toate acestea, doar pentru că are levier mare nu înseamnă că are
impact asupra coeficienților estimați ai ecuației de regresie
Un exemplu de punct cu levier mare, dar fără influență
Acesta este un punct levier, situat foarte departe
de media celorlalte puncte din populație
Să vedem modelul

Deși este prezent un punct cu levier mare, coeficienții nu sunt prea afectați.
De fapt:

• Doar atunci când o observație are și un levier mare, și este și un


oultlier în sens de valori y, va influența puternic dreapta de regresie

• Vom reveni la această problemă a punctelor de influență, în cazul


regresiei multiple
Observații finale:
• Am discutat patru dintre ipotezele modelului de regresie
• OLS se dovedește o estimare destul de robustă atunci când încălcările
ipotezelor sunt rezonabile

• Se poate dovedi că, atunci când aceste ipoteze sunt îndeplinite,


estimarea OLS produce cei mai buni estimatori nedeplasați (BLUE =
best linear unbiased estimates) pentru coeficientul variabilei și pentru
termenul liber.

S-ar putea să vă placă și