Curs 4 - Ipotezele Modelului de Regresie

Ipotezle modelului de
regresie
Ce veți învăța în acest curs
• O scurtă recapitulare a scopului analizei de regresie

• Ipoteze ale modelului de regresie simplă
• Exemple
Aspecte preliminare
• Regresia liniară: explică o variabilă dependentă ca funcție de una sau
mai multe variabile independente; variabila dependentă este una
numerică
• Metoda de estimare: metoda celor mai mici pătrate (uneori se mai
numește regresia OLS, de la acronimul englezesc)
• Ipoteze: ceea ce este necesar să fie îndeplinit pentru ca metoda să fie
bine aplicată
Ipoteze:
• Ipoteza 1: Variabila dependentă este în relație liniară cu variabila
independentă și modelul este corect specificat
• Ipoteza 2: Termenul eroare are dispersie constantă (erori
homoscedastice). Nu există heteroscedasticitate.
• Ipoteza 3: Termenii eroare nu sunt corelați unii cu alții. Altfel spus, nu
există autocorelare serială.
• Ipoteza 4: Termenul eroare este normal distribuit
• Mai sunt și alele, pe care le vom discuta în contextul regresie multiple

Ipoteza 1
• Ipoteza 1: Variabila dependentă este în relație liniară cu variabila
independentă și modelul este corect specificat.
• Exemplu (Anderson et. al. p. 714)

• O companie exploreză relația dintre durata angajării vânzătorilor și
performanța lor în vânzări.
Date:
• Date: Reynolds.xlsx
• Variabile:
• Luni: timpul petrecut de vânzător în companie
• Vânzări: numărul de echipamente vândute
Modelul de regresie liniară
Modelul arată foarte bine, nu? Doar că…

Relația dintre variabile
Deși linia dreaptă nu este o descriere tocmai rea, de fapt relația reală
este mai curând curbilinie. Ce implicații derivă de aici?
Important:
• Cea de-a doua parte a acestei prime ipoteze, mai exact faptul că
“modelul este corect specificat”, va fi discutată atunci când vom
introduce regresia cu mai multe variabile independente
• În esență, această parte se referă la faptul că trebuie sa luăm în calcul
pentru modelul nostru toate variabilele explicative care sunt
relevante.
• Paradoxul Simpson, pe care îl vom discuta după ce vom introdice
regresia multiplă, este un exemplu de consecință a încălcării acestei
ipoteze.
Cum știm dacă această ipoteză este îndeplinită?
• Realizăm o analiză reziduală
• Reprezentăm grafic reziduurile și urmărim o repartizare aleatorie, care

să nu evidențieze niciun fel de tipare, de regularități
sau…
• Folosim fumcția “plot” în R și ne ghidăm după primul grafic (vezi slide
– ul următor)
Plotul reziduurilor:
Observații
• Setul nostru de date conține un număr mic de observații și de aceea
tiparele nu sunt foarte evidente
• Alternativă: reprezentăm grafic reziduurile versus valorile estimate
prin modelul de regresie
• Este primul grafic de pe slide – ul următor
• Căutăm să observăm o linie roșie, dreaptă
Folosirea funcției “plot(model)”
Această curbă roșie arată că reziduurile nu sunt aleator distribuite
Modelul Reynolds
Observații
• Graficul anterior arată că reziduurile urmează un tipar curbiliniu

• Curba roșie indică faptul că modelul nu este liniar
• Mai exact, arată că valori estimate mai mari sunt asociate, pănă la un
punct, cu reziduuri mai mari, după care tendința se inversează
Aceeași funcție “plot(model)”
De data asta este mai bine. Chiar dacă nu este EXACT o linie dreaptă.
Restaurantele fast - food

Cum abordăm o relație neliniară
• De obicei, căutăm o formă funcțională diferită pentru modelul nostru,

în loc să alegem o dreaptă
• Uneori, urmarea anumitor teste, R chiar ne poate recomanda
transformarea potrivită
Ipoteza 2
• Ipoteza 2: Termenul eroare are dispersie constantă (erorile sunt
homoscedastice). Nu este prezent fenomenul de heteroscedasticitate.
Exemplu:
• Aveți un venit de 500 de lei pe lună
• Cât de mult cheltuiți din acest venit?
Comentarii
• Cel mai probbail, veți cheltui toți banii pentru că trebuie să vă acoperiți
nevoile de bază. Puțin probabil să vă permiteți să economisiți.
• Dacă venitul vă crește la 1,000 lei/lună, vă permiteți ceva economii? Cât de
mult?
• Dar dacă aveți un venit de 4,000 lei/lună?
• Ideea este că veți întâlni variații mai mari ale sumelor cheltuite, atunci când
venitul crește.
• Unii vor cheltui tot, alții mai puțin, dar la un venit mai mare aveți alegere
• Astfel, cu cât venitul crește, dispersia cheltuielilor în același grup de venit
crește de asemenea
Exemplu
• Prețul inelelor cu diamant ca funcție de dimensiunea lor (numărul de
carate)
• Date: diamond
• Variabile:
• Preț – variabla dependentă
• Dimensiunea – variabla explicativă (independentă)
O apariție “standard” a heteroscedasticității
Pe măsură ce greutatea diamantului crește, prețul devine mai variabil
Să vedem modelul
Arată bine, dar…
Să verificăm graficele “diagnostic”
Relația nu pare a fi liniară
Heteroscedasticitatea este evidentă aici: linia roșie ar fi trebuit să fie o dreaptă

Cum ne descurcă cu heteroscedasticitatea?
• De obicei, căutăm să adăugăm și alte variabile în model

• Transformari (logaritm, diferentieri etc.)
Ipoteza 3
• Ipoteza 3: Termenii eroare nu sunt corelați unul cu altul. Altfel spus,
nu există corelație serială, sau autocorelație.
• Exemplu: doriți să explorați preferințele consumatorilor pentru o

anume pastă de dinți și intervievați 100 de persoane, din 62 de familii
diferite.
• Ce dimensiune are setul vostru de date?
Când lucrăm cu analiza de regresie
• Explicăm o variabilă prin intermediul alteia

• Avem nevoie de un număr de observații, fiecare aducând propria
informație, deci propria contribuție
• Nevoia de informații independente face să evităm ca informațiile să
fie, de fapt, unul și același lucru
Atunci când lucrăm cu date
• Două dimensiuni:
• Cross – sectional: un număr de unități statistice diferite, măsurate la un
același moment în timp (ex: județe, persoane, țări)
• Temporală: o aceeași unitate statistcă observată în mai multe momente
succesive (ex: 1997 – 2015)
Problema independenței
• Dimensiunea temporală: observația curentă depinde de anterioarele

• Dimensiunea cross – sectional: unitățile statistice similare din
anumite puncte de vedere (ex: aparțin aceleiași familii) tind să poarte
aceeași informație
Dependența cross – sectional
• Persoane din aceeasi familie tind să manifeste preferințe similare

• Studenții aceluiași profesor tind să aibă reprezentări similare asupra
unor concepte
• Județele din aceeași regiune tind să aibă niveluri similare de
dezvoltare
Ce au în comun toate aceste exempe?
Ideea de vecinătate. Socială

Culturală
Spatială
etc…
Modul în care rezolvăm problema semnalată de ipoteza 3 depinde de mai mulți factori.
Metode de rezolvare
• Atunci când lucrăm cu serii de timp, luăm în calcul lag – uri (valori ale
variabilei din perioade anterioare)
• Pentru date de tip cross – sectional, putem lua în considerare

eventuale clustere (grupuri)
(Vom discuta un exemplu atunci când vom introduce regresia cu

variabile calitative. )
Ipoteza 4
• Ipoteza 4: Termenul eroare este normal distribuit.
• Cel de-al doilea grafic din cele patru (a se vedea funcția plot(model))
ne spune dacă această ipoteză este îndeplinită.
• Dacă reziduurile urmează o linie dreaptă, atunci totul este în regulă.
Plot – ul diagnostic
Trebuie să avem aici o linie dreaptă; aceasta este în regulă,
mai puțin coada din dreapta unde se pot observa
câteva valori extreme
Heteroscedasticitatea este evidentă: linia roșie nu este dreaptă

Normalitatea termenului eroare
• Dacă această ipoteză nu este îndeplinită, căutați outlieri (puncte
atipice)
• Putem întâlni două tipuri de outlieri:

• Puncte influențiale
• Puncte cu levier mare
• Fiecare tip are efecte diferite asupra dreptei de regresie

Outlierii și ipotezele modelului
• outlier - o observație din setul de date care nu se aliniază trendului
celorlalte observații
• sunt obervații care trebuie tratate cu multă atenție:

• greșeli în înregistrarea datelor?
• erori de măsurare?
• cazuri specifice care necesită un tratament special?
• outlierii pot semnaliza încălcarea ipotezelor modelului
Exemplul 1
• Fie o serie de date din exemplul restaurantelor fast – food
• Variabile:
• Vânzări
• Populație
Diagrama scatter
Acesta este un punct care nu se înscrie în trendul celorlalte observații
Să vedem modelul
Coeficienții diferă un pic de cei din modelul original, deși am modificat doar o observație
Eliminăm outiler – ul și păstrăm restul datelor neschimbat
Modelul este mai aproape de cel original!
Observații
• Deși prezența outlier – ului a modificat coeficienții estimați ai
modelului, coeficienții cei noi sunt destul de aproape de anteriorii
• Atunci când outlier – ul este eliminat, modelul pentru datele rămase
se apropie foarte mult de modelul original.
Exemplul 2 - Diagrama scatter
Acesta este acum punctul care nu se încadrează în trendul datelor
Să vedem modelul
Coeficienții sunt mult diferiți, deși am schimbat o singură observație

Eliminăm outiler – ul și păstrăm restul datelor neschimbat
Modelul este mai apropiat de modelul original!
Observații
• De data asta, prezența outlier – ului a modificat semnificativ
coeficienții estimați ai modelului
• Atunci când outlier – ul este eliminat, modelul devine foarte apropiat

de cel original
Două diagrame scatter în oglindă
Diferența vine din poziția outlierilor
În acest caz, outlier – ul este apropiat de Aici, outlier – ul este

“centrul” datelor Într-o poziție “extremă”
Observații
• Atunci când outiler – ul este amplasat aproape de “centul” datelor
(media valorilor x) coeficienții estimați abia dacă se modifică, prin
comparație cu coeficienții originali
• Când outlier – ul este amplasat într-o poziție extremă (un punct –
levier), coeficienții estimați se schimbă semnificativ
Alt tip de puncte levier
• Am discutat cazuri în care y lua valori extreme în raport cu restul
datelor
• Există situații în care valorile extreme apar în relație cu variabila
independentă.
• În funcție de poziția lor, și acestea pot fi puncte levier
Exemplul 3 - Diagrama scatter
Outlier – ul este într-o poziție neobișnuită: valoarea lui x este în afara intervalului
de valori pentru restul observațiilor
Să vedem modelul
Coeficiențul estimat pentru variabila explicativă este negativ!!!

Outlier – ul a avut forță să tragă de dreapta de regresie atât de mult, încât
a schimbat natura relației din pozitivă în negativă
Deși dreapta care descrie datele este cea albastră, outlier-ul a inversat sensul relației.
Un punct cu
levier mare
Acesta este un caz tipic de situație în care, din cauza unui outlier,
modelul nostru nu poate capta caracteristici importante ale datelor
Detectarea observațiilor influențiale
• Le putem detecta pe baza diagramei scatter, dar metoda funcționează
doar pentru singură variabilă independentă
• Observațiile poziționate la extremele valorilor variabilei independente

se numesc puncte de levier mare.
Levierul
• Se determină pe baza distanței dintre media valorilor variabilei
independente și poziția punctului analizat
• Pentru cazul unei singure variabile independente, levierul observației
“i” este:
Observații
• Eșantioanele de dimensiune mică sunt în mod special sensibile la outlieri,
pentru că includ puține cazuri care să îi contracareze influența
• Un outlier de regresie este o observație care are o valoare neobișnuită
pentru variabila dependentă Y, condiționată de valorile X
• Un astfel de outlier va avea un reziduu mare, dar nu va afecta în mod
necesar panta regresiei.
• O observație care are o valoare neobișnuită pentru X, deci care este la
distanță mare de media valorilor independentei, are un levier mare și ca
atare potențialul de a influența dreapta de regresie
• Cu toate acestea, doar pentru că are levier mare nu înseamnă că are
impact asupra coeficienților estimați ai ecuației de regresie
Un exemplu de punct cu levier mare, dar fără influență
Acesta este un punct levier, situat foarte departe
de media celorlalte puncte din populație
Să vedem modelul
Deși este prezent un punct cu levier mare, coeficienții nu sunt prea afectați.
De fapt:
• Doar atunci când o observație are și un levier mare, și este și un

oultlier în sens de valori y, va influența puternic dreapta de regresie
• Vom reveni la această problemă a punctelor de influență, în cazul

regresiei multiple
Observații finale:
• Am discutat patru dintre ipotezele modelului de regresie
• OLS se dovedește o estimare destul de robustă atunci când încălcările
ipotezelor sunt rezonabile
• Se poate dovedi că, atunci când aceste ipoteze sunt îndeplinite,

estimarea OLS produce cei mai buni estimatori nedeplasați (BLUE =
best linear unbiased estimates) pentru coeficientul variabilei și pentru
termenul liber.

Curs 4 - Ipotezele Modelului de Regresie

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Curs 4 - Ipotezele Modelului de Regresie

Încărcat de

Drepturi de autor:

Formate disponibile

Ipotezle modelului de

• O scurtă recapitulare a scopului analizei de regresie

• Mai sunt și alele, pe care le vom discuta în contextul regresie multiple

• Exemplu (Anderson et. al. p. 714)

Modelul arată foarte bine, nu? Doar că…

• Realizăm o analiză reziduală

• Reprezentăm grafic reziduurile și urmărim o repartizare aleatorie, care

• Graficul anterior arată că reziduurile urmează un tipar curbiliniu

Restaurantele fast - food

• De obicei, căutăm o formă funcțională diferită pentru modelul nostru,

Heteroscedasticitatea este evidentă aici: linia roșie ar fi trebuit să fie o dreaptă

• De obicei, căutăm să adăugăm și alte variabile în model

• Exemplu: doriți să explorați preferințele consumatorilor pentru o

• Explicăm o variabilă prin intermediul alteia

• Dimensiunea temporală: observația curentă depinde de anterioarele

• Persoane din aceeasi familie tind să manifeste preferințe similare

Ideea de vecinătate. Socială

• Pentru date de tip cross – sectional, putem lua în considerare

(Vom discuta un exemplu atunci când vom introduce regresia cu

Heteroscedasticitatea este evidentă: linia roșie nu este dreaptă

• Putem întâlni două tipuri de outlieri:

• Fiecare tip are efecte diferite asupra dreptei de regresie

• sunt obervații care trebuie tratate cu multă atenție:

Coeficienții sunt mult diferiți, deși am schimbat o singură observație

• Atunci când outlier – ul este eliminat, modelul devine foarte apropiat

În acest caz, outlier – ul este apropiat de Aici, outlier – ul este

Coeficiențul estimat pentru variabila explicativă este negativ!!!

• Observațiile poziționate la extremele valorilor variabilei independente

• Doar atunci când o observație are și un levier mare, și este și un

• Vom reveni la această problemă a punctelor de influență, în cazul

• Se poate dovedi că, atunci când aceste ipoteze sunt îndeplinite,

S-ar putea să vă placă și