Sunteți pe pagina 1din 13

Metode de sporire a performanţei practice a modelelor de regresie

Printre modelele statistice cu utilitate în prognoză şi în modelare matematică în general,


modelele de regresie aduc importante contribuţii şi avantaje prin proprietăţile lor interesante.
Desigur că, proprietăţile modelelor de regresie rezultă în ipoteze bine precizate şi care în realitatea
practică sunt, uneori, mai mult sau mai puţin neîndeplinite.

Se impun precizări şi metode de depistare a încălcărilor şi găsirea unur căi de ameliorare a


încălcărilor respective, dar şi de extindere a valabilităţii unor concluzii importante, cel puţin în
situaţia când încălcările nu sunt prea grave. În căutarea de ameliorări se ajunge şi la formularea
unor situaţii mai speciale privind tehnica sugerată de metoda regresiei liniare multivariate, cu
rezultate mulţumitoare. Mai întâi, amintim unele încălcări ale ipotezelor de definire a modelului şi
consecinţele lor care să explice unele inadvertenţe şi să căutăm ameliorări ale lor, precum şi
pentru a răspunde la cerinţa de validare a modelelor finale.

Tipuri de neîndeplinire a unor iporeze şi efectele lor

Una din cele mai des întâlnite ipoteze a cârei încălcare suntem nevoiţi să o acceptăm, între
anumite limite, este independenţa predictorilor.

Neândeplinirea ei conduce la introducerea unor modele mai cuprinzătoare şi a unor metode


secvenţiale de selecţie a predictorilor rămaşi în model.

Vom spune că în model sunt prezente interacţiuni statistice (unele dintre ele numite
multicoliniarităţi) când panta (coeficientul parţial de regresie) relaţiei dintre media condiţionată a
variabilei predicţionată şi respectiv câte un predictor se schimbă, dacă ceilalţi sunt consideraţi ca
şi variabile de control.

Dintre efectele prezenţei interacţiunilor statistice semnificative amintim pe cele mai


importante:

a) Erorile standard ale coeficienţilor de regresie estimaţi b̂ j , j=1,2,..m cresc ceea ce


implică creşterea P–valorii la verificare ipotezei H 0 : b j =0, mai ales pentru volume mici ale
eşantionului.

Observaţie: Se ştie că în modelul univariat M(Y/ X 1 ) = a + b1 X 1 eroarea standard asociată


σ2 SSE
lui b̂1 este σˆ bˆ = unde σˆ = şi atunci pentru modelul bivariat M(Y/
1
∑( xˆ i −x ) 1 2
) n −2

1 σˆ
σˆ bˆ = . SSE
X1, X 2
)=a+b1X1+b2X2
1
1− r 2
X1 X 2 ∑( x 1
i − x1 )2
în care
σˆ =
n − 3 pentru că avem doi

predictori şi trei parametri necunoscuţi. Efectul corelaţiei rX 1 X 2 dintre predictori se manifestă


prin creşterea erorii σ
ˆ bˆ când 1- rX2 X se micşorează, pentru că numitorul lui σ 2 rămâne
1 1 2

neschimbat.
Aceste afirmaţii se confirmă prin exemplul de mai jos:
1
Problema A

Rezultatele cercetării psihiatrice ale unui lot de 30 de pacienţi cu anxietăţi şi depresii se


înregistrează codificat ca o măsură compozită cu valori între 17 şi 41 (starea cea mai grava). Ca
factor de influenţă se definesc două variabile predictoare compozite, prima X 1 cu valori între 3
şi 97 care are în vedere evenimentele speciale din viaţa pacienţilor ce le-ar purea afecta sănătatea:
decesul unei fiinţe apropiate, accidente, condamnări, conflicte familiale, pierderea locului de
muncă sau a unei afaceri importante pentru viaţa lui etc.

Alt factor de influenţă notat cu X 2 , ia valori codificate între 0 şi 100 şi se referă la situaţii
socio-profesionale şi economice (studii, ocupaţii, venituri etc). Măsurătorile se referă la ultimii
trei ani.

Se cere un model de regresie multivariată cu X 1 şi X 2 ca predictori şi Y ca variabila


dependentă, dacă se cunosc următoarele valori asociate eşantionului respectiv.

Y X1 X2

17 46 84
19 39 97
20 27 24
20 3 85
20 10 15
21 37 78
22 35 91
22 78 60
24 33 67
24 18 39
25 81 87
26 22 95
26 50 40
27 55 88
28 97 89
28 37 50
28 30 90
28 13 56
29 5 40
30 44 53

2
31 35 38
31 95 29
31 63 53
31 42 7
32 38 32
34 70 58
34 57 16
34 40 29
41 49 3
41 85 73

.......................

b) Ca metodă de depistare a interacţiunii unui predictor, nou introdus în model, cu ceilalţi


predictori, este implicaţia schimbărilor substanţiale ale coeficienţilor parţiali ai acestora.

Observaţie. În problema A coeficienţii aˆ , bˆ1 , bˆ2 prezintă schimbări esenţiale

c) Creşterea semnificativă a coeficientului de determinare R 2 deşi coeficienţii parţiali de


regresie devin nesemnificativi, adică ipoteza H 0 : b1 = b2 =…= bm =0 este respinsă, dar separate
ipotezele H 0 : b1 =0; H 0 : b2 =0 etc. nu se resping în sensul că evaluarea efectului parţial este
dificil.

Observaţie. Exemplu: În problema A subpunctul δ) testul F pentru H 0 : bˆ1 = b2 = b3 = 0


are nivelul de semnificaţie dat de de P-valoarea =0,0069, dar testul t pentru ipoteza H 0 : b1 = 0
conduce la P-valoarea=0,1024, pentru ipoteza H 0 : b2 = 0 conduce la P-valoarea=0,4306 şi
respective pentru H 0 : b3 = 0 avem P-valoarea=0,5078, regresia bivariată de la punctul ε) au
semnificaţii considerabile cu P-valoare=0,0098 şi respectiv 0,0058, pierderea de semnificaţie
(dată de P-valori) se datorează interacţiunii dintre X 3 = X 1 X 2 şi X 1 , respectiv X 2 , căci
rX = 0,771 şi rX = 0,642 ceea ce nu este surprinzător pentru că X 3 este complet
1X3 2X3

determinat de X 1 şi X 2 , adică se suprapun părţile de variaţie ale lui Y datorate lui X 1 cu cele
de X 3 = X 1 X 2 şi respectiv variaţiile explicate de X 2 cu cele explicate de X 1 X 2 .

Variaţiile parţiale datorate de fiecare dintre X 1 şi X 2 devin relative mici.

În acest caz creşterea lui R 2 de la 0,358 de la cazul ε ), la 0,369 la cazul µ , nu este


chiar aşa mare dar există o creştere care justifică performanţa testului F

3
………………

d) Prezenţa interacţiunii conduce la mărirea erorilor standard şi pentru corelaţia parţială; se


pot da exemple de coeficienţi de corelaţie parţială egali pe populaţie ρYX 1. X 2
= ρYX 2 . X1
, dar pe
eşantion să avem rYX 1. X 2
foarte diferit de rYX 2 . X1
, deşi rYX 1
este apropiat de rYX , când X 1
2

şi X 2 sunt puternic corelaţi.

................................

e) Dacă X i şi X j sunt puternic corelaţi (| rX i X j | este mare), atunci X j nu explică


multă variabilitate a mediei lui Y faţă de ceea explicată de X i , în sensul că R 2 pentru modelul
2 2
cu predictorii X i şi X j nu este cu mult mai mare decât rX X şi chiar că rYX . X tinde să fie i j i j

mai mic; rezultă că adăugarea unui predictor X k +1 la un model cu k predictori nu aduce o


creştere prea mare pentru rYX acesta fiind mic: adică R 2 pentru vechiul model nu
k +1. . X 1 ...... Xk

creşte semnificativ şi coeficienţii de regresie parţială nu îşi mai au sensul cunoscut.

f) Prezenţa unei interacţiuni puternice duce la pierderea interpretării cunoscute pentru


coeficienţii de regresie, adică ei nu mai pot oferi o măsură a intensităţii dependenţei şi respectiv
corelaţiei parţiale şi nici standardizarea lor nu mai are sens; rezultă că apar dificultăţi în evaluarea
efectului parţial al predictorilor, deşii chiar dacă SSE nu descreşte pre mult, totuşi ajustarea
modelului nu este mai slabă, nu se micşorează semnificativ performanţa, dar problema predicţiei
lui Y şi a lui M(Y/X1,….,Xm) are de suferit pentru că erorile aferente pot creşte; în plus, rezumând şi
alte efecte ale interacţiunii rezultă apariţia de dificultăţi privitoare la efectuarea de inferenţe
startistice atât de necesare fidelităţii modelului.

g) Proprietăţile bogate privind inferenţa statistică a predictibilităţii variabilei explicate Y şi


a valorii sale medii condiţionate sau obţinut în ipoteza de normalitate a repartiţiei condiţionate a
lui Y şi cu dispersia σ 2 constantă (cunoscută ca propietatea de homoscedasticitate).

Neândeplinirea acestei ipoteze conduce la problema heteroscedasticităţii pentru a cărei


rezolavare se recurge la estimarea coeficienţilor prin metoda celor mai mici pătrate generalizate
(ponderate) în care se folosesc ponderi proporţionale cu dispersia observaţilor y i , i=1,2,…,n. Se
porneşte de la observaţia că valorile y i pentru care dispersia este mai mică poartă mai multă
informaţie.

În plus, se utilizează transformări convenabile ale dateloe care conduc la satisfacerea


ipotezelor cerute şi asupra cărora vom reveni în continuare.

Modalităţi de ameliorare a neajunsurilor generate de încălcarea ipotezelor

Am văzut că, în cazul univarit, necorelarea liliară impusă de coeficientul rXY =0 nu


exclude existenţa unei corelaţii neliniare. Am exemplificat anterior obţinerea unei corelaţii
parabolice Y=a+bX+cX2 pe care o privim ca pe o regresie bivariată cu predictorii X şi X2 şi,
evident, cu prezenţa de interacţiuni între aceştia. Ideea modelării relaţilor neliniare oferă o soluţie

4
pentru modelarea sistemelor de variabile care au predictori neindependenţi, care în cazul m-variat
revine la adăugarea la forma neliniară a+ b1 X 1 +... +bm X m a m termini de gradul al doilea
2 m( m −1)
X j , j=1,2,…,m şi termeni cu produse mixte de forma X i X j . Prin urmare se
2
introduce o modelare a interacţiunilor de ordinul al doilea prin produse mixte a doi preductori şi
respectiv puterea a doua a fiecărui predictor.

Uneori se acceptă şi interacţiuni de ordinul al treilea prin adăugarea la cele de ordinul al


3 2
doilea termeni de forma X j , X j X k , X i X j X k , dar mulţi dintre aceştia vor avea o influenţă mică
în modificarea varianţei lui Y.

Aici vine ................................

Acceptarea modelărilor de interacţiuni nu rezolvă problema găsirii celui mai adecvat


model ci numai clarificarea axprimărilor de interacţiuni, de accea se introduc metode de eliminare
a predictorilor neperformanţi (trei metode secvenţiale şi una de selectare a submulţimilor cu
acelaşi număr de predictori. Aceasta pentru a simplifica modelul final care se doreşte a fi cu cât
mai mulţi dintre predictorii cu influenţă substanţială şi dacă este posibil independenţi statistic.

Ajustarea modelului neliniar se face prin interpretarea forţată a lui ca model liniar, dar se
pot aplica şi direct programe de regresie liniară. Rămân în discuţie aspecte legate de inferenţă
privind neândeplinirea ipotezelor iniţiale, dar modelarea neliniară a interacţiunilor oferă o cale de
ameliorare a neajunsurilor privind neîndeplinirea ipotezelor iniţiale.

Tipul convenabil de ecuaţie de regresie, în cazul bivariat se deduce şi pe baza informaţiilor


culese din analiza diagramei de împrăştiere. Se studiază graficele tripletelor de puncte ce au
coordonatele din planul orizontal perechile de valori ale predictorilor respectivi şi pe verticală
valorile corespunzătoare ale lui Y (ecuaţia de regresie conduce la o suprafaţă plană sau nu, în
funcţie de interacţiunile dintre preductori).

În cazul univariat graficele punctelor ( xi , y i − yˆ i ) i=1,…n, asociate rezidurilor oferă


informaţii despre verificarea ipotezei de independenţă a lui σ 2 de valorile xi prin dispunerea
punctelor într-o bandă dreptunghiulară y=-2 σ , y=2 σ simetrică faţă de O x şi de lăţime 4 σ ;
dacă sunt cuprinse intr-o configuraţie trapezoidală înseamnă că dispersia creşte o dată cu valorile
lui X şi deci nu este constantă. Dacă punctele aparţin unei configuraţii de un alt tip aceasta
înseamnă că regresia este neliniară.

.........................

Coeficienţii ecuaţiei de regresie ce conduc la modelul polinomial amintit mai sus nu mai
servesc ca pante ale dependenţelor univariate (ale lui Y faţă de Xj ) pentru că nu are sens să ne
referim la variaţiile lui Y când X2 creşte cu o unitate şi X este constant (nu poate controla X variaţia
lui X2). Putem însă să luăm ca măsură a proporţiei de variaţie neexplicată de partea liniară, care
este explicată de X2 în modelul prin polinom de gradul al doilea, în sensul că:

R 2 − r 2 YX
r2
YX 2 . X
=
1 − r 2 YX

sau să studiem separat legăturile univariate (necontrolate de celelalte) dintre Y şi Xj.


5
.....................

În cadrul modelărilor neliniare trebuie să acceptăm şi alte funcţii impuse de experienţă şi


de considerente teoretice, cum este, cazul exponenţial de tipul M(Y/X)= abX. În acest caz a este
valoarea mediei în X=0, iar b este un factor cu creşterea exponenţială şi care conduce la schimbări
multiplicative ale mediei condiţionate a lui Y.

Daxă X creşte cu o unitate Y creşte de b ori etc. Asemenea modele apar în demografie, în
economie la calculul dobânzilor etc.

Aceste modele, ca de altfel şi altele, sugerează folosirea unor transformări bine alese ale
uneia sau ambelor tipuri de variabile. În cazul acesta transformarea logaritmică aduce mari
avantaje în recuperarea unor condiţii ce perturbau ipotezele. În cazul univariat conduce la o nouă
formă a modelului care devine de tip liniar şi recuperează şi apropierea de normalitate a repartiţiei
condiţionate a lui logY şi reduce gradul de heteroscedasticitate.

Vom obţine că:

M(logY)=loga+(logb)X

O estimsre a relaţiei exponenţiale Yˆ = aˆbˆ X se obţine folosind regresia univariată adică:


???????????

log Yˆ =log a
ˆ +(log ˆ) X
b şi apoi trecând la antilogaritmi, pentru că se pierd unele
interpretări şi semnificaţii cunoscute pentru variabilele iniţiale.

.................

Aceste proprietăţi au condus la un domeniu nou şi foarte util cercetărilor din


domeniul fiabilităţii (siguranţei) elementelor componente ale unor mecanisme, ale sistemelor şi
teoria supravieţuirii, mult cercetată în medicină. Trecerea, cu modificări adecvate, la cazul
multivariat a fost realizată de Cox D.R. care a introdus modele interesante ce îi poartă numele.

................

O altă transformare recomandată atunci când variabila X creşte şi variabilitatea lui Y creşte
(ceea ce face suspectă aplicarea inferenţei), este Y care, deseori, posedă o variabilitate
omogenă şi liniară relativ la X. Dacă testăm ipoteza H 0 : b = 0 că panta relaţiei lui Y cu X să
fie zero obţinem că dacă Y nu tinde să varieze când X variază, aceeaşi concluzie se formulează
şi pentru media condiţionată a lui Y relativ la X.

...........

În cazul cînd deviaţa standard a lui Y este proporţională cu valorile lui X, transformarea
1 Y
sau conduce la o dependenţă pentru care σ 2 este constantă. De asemenea, când
X X
variabila dependentă creşte sau descreşte până la o anumită valoare a lui X şi apoi creşterea lui X
nu mai are efect asupra lui Y se recomandă transformarea amintită care este echivalentă cu
aplicarea metodei celor mai mici pătrate generalizate (ponderate).

6
Este important de reţinut că transformările care reduc gradul de heteroscedasticitate,
simultan ameliorează şi normalitatea repartiţiei condiţionate a lui Y relativ la X.

Desigur că, ulterior se trece la transformarea inversă pentru a obţine interpretări naturale
pentru medie, dispersie şi coeficienţi de corelaţie.

Una dintre căile pentru obţinerea de ameliorări este aceea de a comasa într-un singur
predictor pe cei ce sunt puternic corelaţi sau cu influenţe semnificative (aşa cum s-a procedat la
problema A).

O altă abordare este aceea a analizei factoriale (ANOVA) prin crearea de variabile
artificiale care se bazează pe combinaţii liniare ale unor predictori astfel ca cei obţinuţi să nu fie
puternic corelaţi.

Uneori se apelează la partiţionarea datelor în componente (grupuri) relative la o variabilă


de control (de exemplu valori mari ale lui X j , valori mijlocii ale lui X j şi respective mici ale
lui X j ) şi se calculează corelaţiile sau pantele de variaţie pentru Y şi X j pe fiecare dintre
componente ca şi mijloc de a descrie natura interacţiunii.

O altă abordare, când ipotezele sunt puternic afectate, este de a trata datele ca fiind
calitative (ordonabile sau nominale) şi pentru care există măsuri speciale privind gradul de
asociere a datelor cum sunt măsurile Kendall ( τˆ,τˆb şi ν̂ ).

Metode de selectare a predictorilor pentru obţinerea de metode performante

Există mai multe metode pentru determinarea celei mai bune submulţimi dintr-o listă de
posibil importanţi predictori independenţi sau nu şi care intră intr-un model de regresie
multivariată.

Metode de eliminare “înapoi”

Se porneşte cu toţi predictorii bănuiţi importanţi şi se procedează la eliminarea unul câte


unul dintre cei nesemnificativi statistic.

1.a) Se aplică programul de regresie pentru toţi cei m predictori iniţiali şi care oferă
valorile coeficienţilor b j asociaţi lui X j iar semnificaţia este dată de P- valoarea asociată
testului t pentru ipoteza H 0 : b j = 0 cu alternative H 1 : b j ≠ 0 .

b) Se elimină acel predictor ce are cea mai mare P-valoare ce exceed unui nivel de
semnificaţie prestabilit α , de regulă α =0,05; dacă toţi au P-valoarea sub 0,05 procedeul se
opreşte la cei m predictori.

2) Se repată pasul 1) cu constatarea şi eliminarea unul câte unul dintre predictori


nesemnificativi şi se opreşte această procedura secvenţială atunci când nici un predictor nu mai
are P-valoarea mai mare decât α şi se declară că cei rămaşi definesc un model cel mai bun,
rezultat prin această metodă.

7
Un dezavantaj al metodei este că nu se poate aplica mulţimilor de predictori cu mai mult
decât n (volumul eşantionului) elemente şi că orice predictor eliminat nu se mai poate reântoarce
în sistem.

……………………..

Metoda de construcţie prin adăugare ”înainte”

[ ]
1.a) Se calculează matricea de covariantă rX i X j , j=0,1,2,...,m în care X 0 = Y sau şirul
de coeficienţi rYX i , i=1,2,...,m şi se alege acel predictor X j pentru care rYX j ≥ rYX i , i ≠ j

şi are P- valoarea pentru testul t cu ipotezele H 0 : b j = 0 , H 1 : b j ≠ 0 mai mică decât α , anterior


ales de cercetător. Dacă P-valoarea este mai mare decât α pentru orice predictor, niciunul nu se
selectează pentru model şi procedeul se opreşte.

b) Se caută cel mai bun model cu doi predictori aplicând programul de regresie pentru
fiecare pereche ( X j , X i ) şi se allege acea pereche ( X j , X k ) pentru care P-valoarea faţă de
testul t este cea mai mică. Dacă niciunul dintre predictori nu posedă o P-valoare mai mică decât
α , procedeul se opreşte la un sistem cu un singur predictor şi anume X j .
2. Se caută un sistem performant cu trei predictori considerând toate tripletele
( X j , X k , X h ) h ≠ j,k şi se adaugă acel X h pentru care P-valoarea testului t pentru ipoteza
H 0 : bh = 0 cu alternative H 1 : bh ≠ 0 este cea mai mică şi mai mică decât α , în caz contrar
precedeul se opreşte.

3. Se continuă procedeul de la punctual 2) până ce la sistemul anterior nu se mai poate


adăuga nici un predictor cu P-valoarea mai mica decât α .

……………………..

Metoda “înainte pas cu pas” şi cu eliminare

Procedeul este ca şi cel de la metoda“ înainte” numai că la fiecare pas se procedează


simultan ca şi la metoda“ înapoi” adică se permite ca şi variabilele deja admise în model să fie
eliminate, dar pentru acestea se alege un prag de semnificaţie α1 ≥ α , pentru a nu intra într-un
ciclu infinit. Aceasta însemnează că, de exemplu, a treia selecţie poate conduce la eliminarea
unuia dintre predictorii deja intraţi şi se continuă cu ultimii doi constituind toate tripletele şi
acceptând tripletul pentru care noul predictor are cea mai mică P-valoare. Acest fenomen se
produce datorită prezenţei de interacţiuni dintre predictorii căutaţi pentru a fi adăugaţi şi cei deja
selectaţi. Este interesant de subliniat că un predictor eliminat şi intrat în lista celor de încercat în
paşii următori poate reintra între cei aleşi ulterior.

Când procedeul nu mai găseşte predictori care împreună cu cei aleşi să aibă P-valoarea mai
mică decât α se opreşte, declarându-se a fi cel performant obţinut prin această metodă.

……………….

8
Metoda celei mai bune submulţimi de predictori

Această metodă îşi propune să găsească cea mai convenabilă submulţime cu un număr
precizat de predictori.

Dacă sistemul iniţial conţine m predictori şi dorim cel mai bun subsistem ar trebui să
testăm 2 m −1 subsisteme ceea ce este destul de costisitor, dar se poate aplica atunci când situaţia
o cere şi pentru m mic.

Selecţia se face pe baza a trei statistici: R 2 care este util când se compară subsisteme cu
acelaşi număr de predictori; R 2 ajustat care ameliorează neajunsul precizat pentru R 2 şi
statistica C p .

Aceste statistici sunt:

SSE m n −1 SSE k
R2 =1− , R 2 − ajust = ( R 2 − ) şi C p = − (n − 2 p)
SST n −1 n − m −1 MSE m

unde SSE k este suma pătratelor erorilor pentru cel mai bun model cu k < m predictori,
MSE m este media pătratelor erorilor pentru modelul cu m predictori: dacă k = m C p = p şi de
aceea diferenţa C p − p serveşte ca măsură a deplasării subsistemelor când k < m; de fapt dacă
sistemul cu k < m predictori nu este deplasat ne aşteptăm ca să aibă loc egalitatea C p = p = k+1.

În funcţie de valorile acestor statistici se alege un cel mai bun sistem; uneori se aleg două
astfel de sisteme căci, în general, diferă în funcţie de valorile acestor statistici.

....................

Observaţie. Se ştie că R 2 poate să crească şi numai datorită creşterii numărului de


predictori şi că R 2 - ajust atenuează din acest neajuns.

Trebuie reţinut că cele patru metode pot duce la rezultate diferite, dar nu prea îndepărtate
între ele. Desigur că, toate procedeele se bazeată pe date de pe un eşantion şi că date diferite
produc rezultate diferite. În plus, rezultatele sunt influenţate de interacţiunile dintre predictori, de
diferiţi „intruşi” sau neliniarităţi ale datelor. Se recomandă verificarea modelelor selectate şi
adaptarea lor la cerinţele cunoscute de cercetători, uneori chiar putând adăuga predictori impuşi de
teorii sau cunoştinte anterioare.

Problema B

Exemplu. Considreaţiile justificate privind coeficienţii parţiali de regresie multivariată sunt


prezente şi în cazul abordărilor cu ajutorul corelaţilor parţiale.

a) Fie X 1 şi X 2 predictori explicativi pentru Y şi cu proprietatea că

def
M [ (Y − M (Y ))(X 2 − M ( X 2 ))]
ρ YX1 = σ YX2 = [ ][
M (Y − M (Y ))2 M ( X 2 − M ( X 2 ))2 ]
= 0,65 , ρ X X = 0,85
1 2

9
şi arătaţi că ρYX 1. X 2
= ρYX 2 . X1
=0,244 ...........

b) Presupunem că pentru un eşantion avem că rX 1X 2


= 0,9 şi că rYX 1 = 0,7 , rYX 2 = 0,6
adică sunt relativi apropiaţi între ei şi probabil numai pentru eşantioane foarte mari se plasează în
limitele erorilor de sondaj pentru populaţia iniţială.

Atunci vom avea că:

rYX 1 − rYX 2 rX 1 X 2
rYX 1 . X 2 = = 0,459 , rYX . X = −0,096
(1 − rYX2 2 )(1 − rX21 X 2 ) 2 1

adică o diferenţă semnificativă faţă de cea dintre rYX 1


şi rYX , datorită prezenţei unei
2

corelaţii semnificative între X 1 şi X 2 .

Dacă X 1 şi X 2 sunt necorelate, adică rX 1 X 2 = 0 , atunci vom avea că rYX 1 . X 2 = 0,875 şi


rYX 2 . X 1 = 0,840

Problema B1

Exemplu. Analizaţi dacă distribuţia condiţionată a variabilei explicate Y de către doi


predictori X 1 şi X 2 din exemplul (problema A) punctul γ este normală cu dispersia constantă
σ 2 mulţimea de valori ale predictorilor (adică homoscedasticitate). Prezentaţi o diagramă care să
vizualizeze rezidurile care reprezintă deviaţiile valorilor observate y i ale lui Y faţă de valorile
predicţionate ŷ i , ţinând seama că dacă observaţiile y i sunt normal distribuite în jurul suprafeţei
de regresie, având dispersia condiţionată σ 2 , atunci rezidurile trebuie să fie aproximativ normal
distribuite cu dispersia σ 2 .

Pentru a răspunde la această întrebare o cale ar fi să reprezentăm graficul rezidurilor în


jurul valorii medii care este zero.

Amintim că din inegalitatea lui Cebîşev se deduce că dacă avem o variabilă aproximativ
normală cu media zero valorile sale ar trebui să se distribuie simetric faţă de valoarea medie, când
volumul eşantionului este suficient de mare şi că 68% dintre valori se află pe segmentul [ −σˆ , σˆ ]
95% pe segmentul [−2σ ˆ] .
ˆ ,2σ

Dacă ne referim la Exemplul (Problema A) punctual γ şi asociem listei reziduurilor


histograma sau diagrama Steamand Leaf sau chear reprezentarea valorilor pe o dreaptă constatăm
că aproximativ 76,7% (23 din cele 30) de valori aparţin segmentului [ −σˆ , σˆ ] =[-5,02;5,02] şi
96,7% (29 din 30) aparţin segmentului [−2σ ˆ ] adică se confirmă proprietatea de
ˆ ,2σ
homoscedasticitate.

………………………….

În particular, orice valoare care de la stânga sau de la dreapta lui zero la o distanţă de mai
mult de 3 σ̂ este o valoare “străină” (intrusă) ce trebuie tratată special privind motivul
provenienţei ei.

Problema B2. Se consideră modelele de regresie liniară univariată de la Problema A


(pentru α şi β) cu ajutorul cărora se construiesc modelele bivariate M(Y/X1,
10
X 12 ) = a + b1 X 1 + b2 X 12 şi M(Y/X , X 22 ) = a + c1 X 2 + c 2 X 22 şi se cere măsura proporţiei de
2

variaţie a lui Y explicată de modelul bivariat parabolic corespunzător (şi nexplicată de modelul
liniar restrâns)

R 2 − rYX2 1 R 2 − rYX2 2
r 2
YX 12 . X 1
= , rYX2 2 . X =
1 − rYX2 1 2
1 − rYX2 2

Problema B3. Asociaţi modelului bivariat de la problema A punctul γ respectiv modele


care să conţină X 1 , X 2 , X 12 , X 22 , X 1 X 2 şi apoi X 1 , X 2 , X 12 , X 22 , X 1 X 2 , X 1 X 2 X 2 ,
X 1 X 1 X 2 şi comentaţi modificările de valori ale coeficienţilor de regresie ca şi confirmare a
existenţei de interacţiuni, dar şi ca soluţii de modelare a interacţiunilor prin expresii clare cu puteri
şi produse mixte.

Problema B4. Prezentaţi graficele rezidurilor modelelor α), β), γ ) ( xi , y ii − yˆ i ) şi


( yˆ i , yi − yˆ i ) şi pentru unul dintre modelele de la problema B3.

Prezentaţi diagrama de împrăştiere şi suprafaţa de regresie şi a modelului γ) şi a unui alt


model bivariat cu 2 predictori dintr-unul din modelele multivariate pentru a justifica sugestia
oferită de diagramă pentru formularea tipului de model.

Problema C1. Se ştie că numărul bărbaţilor de culoare albă din USA care mor la 1000 de
indivizi de o vârstă dată în decursul unui an este:

Vârsta=X Rata decesului la mia


de indivizi=Y
30 3
40 6
50 14
60 27
70 60
80 125

Se cere:
___
a) diagrama de împrăştiere ( xi , y i ) , i= 1,6 ;

b) graficul ( xi , log 10 y i )

11
not ∧
c) ecuaţia de regresie liniară M( log 10 Y / X ) = log 10 Y = log a + (log b) X

d) Estimarea parametrilor a şi b din ecuaţia de predicţie Yˆ =abX şi a valorii de predicţie

.................

Problema C2. Se dă selecţia:

x: 1 1 1 2 2 2 3 3 3 4 4 4
y: 0 1 2 1 3 5 2 5 9 5 1 1
0 4
şi se cere :
___
a) diagrama de împrăştiere ( xi , y i ) , i= 1,12 ;

___
b) efectuaţi transformarea Z= Y , prezentaţi diagrama de împrăştiere ( xi , z i ) i= 1,12 ;

c) analizaţi existenţa unei relaţii între X şi Z şi respectiv între X şi Z2=Y.

................

Problema D1. Se studiază caracteristicile a 25 de pacienţi cu descrescenţă fibroasă chistică


(czstic fibrosis) şi se obţine următoarele rezultate:
Vârsta

Sexul

FEV1

FRC

TLC

PE max
BMP

RV
Nr. Pacient

Înălţimea

Greutate

1 7 0 109 13,1 68 32 258 183 137 95

2 7 1 112 12,9 65 19 449 245 134 85

3 8 0 124 14,1 64 22 441 268 147 100

4 8 1 125 16,2 67 41 234 146 124 85

5 8 0 127 21,5 93 52 202 131 104 95

6 9 0 130 17,5 68 44 308 155 118 80

7 11 1 139 30,7 89 28 305 179 119 65

8 12 1 150 28,4 69 18 368 198 103 110

9 12 0 146 25,1 67 24 312 194 128 70

10 13 1 155 31,5 68 23 413 225 136 95

11 13 0 156 39,9 89 39 206 142 95 110

12 14 1 153 42,1 90 26 253 191 121 90

12
13 14 0 160 45,6 93 45 174 139 108 100

14 15 1 158 51,2 93 45 158 124 90 80

15 16 1 160 35,9 66 31 302 133 101 134

16 17 1 153 34,8 70 29 204 118 120 134

17 17 0 174 44,7 70 49 187 104 103 165

18 17 1 176 60,1 92 29 188 129 130 120

19 17 0 171 42,6 69 38 172 130 103 130

20 19 1 156 37,2 72 21 216 119 81 85

21 19 0 174 54,6 86 37 184 118 101 85

22 20 0 178 64,0 86 34 225 148 135 160

23 23 0 180 73,8 97 57 171 108 98 165

24 23 0 175 51,1 71 33 224 131 113 95

25 23 0 179 71,5 95 52

Sex: 0 bărbaţi, 1 femei

BMP: masa corporală (greutate/(înălţime)2) ca procentaj al medianei specifice vârstei la un


individ normal

FEV1: forţa de expirare a volumului de aer într-o secundă

RV: volumul rezidual

FRC: capacitatea reziduală funcţional

TLC: capacitatea totală a plămânului

PE max: presiunea expiratorie statică maximă (în cm H2O)

Analizaţi ecuaţia de regresie performantă cu predictori esenţiali folosind metoda ”înapoi”

Problema D2. Aceeaşi problemă cu metoda ”înainte”.

Problema D3 Aceeaşi problemă cu metoda ”înainte pas cu pas” şi cu eliminare.

Problema D4 Aceeaşi problemă cu metoda celei mai bune submulţimi de X predictori.

Ex= nr. de predictori performanţi găsiţi la D1 sau D2 sau D3.

13

S-ar putea să vă placă și