Documente Academic
Documente Profesional
Documente Cultură
Una din cele mai des întâlnite ipoteze a cârei încălcare suntem nevoiţi să o acceptăm, între
anumite limite, este independenţa predictorilor.
Vom spune că în model sunt prezente interacţiuni statistice (unele dintre ele numite
multicoliniarităţi) când panta (coeficientul parţial de regresie) relaţiei dintre media condiţionată a
variabilei predicţionată şi respectiv câte un predictor se schimbă, dacă ceilalţi sunt consideraţi ca
şi variabile de control.
1 σˆ
σˆ bˆ = . SSE
X1, X 2
)=a+b1X1+b2X2
1
1− r 2
X1 X 2 ∑( x 1
i − x1 )2
în care
σˆ =
n − 3 pentru că avem doi
neschimbat.
Aceste afirmaţii se confirmă prin exemplul de mai jos:
1
Problema A
Alt factor de influenţă notat cu X 2 , ia valori codificate între 0 şi 100 şi se referă la situaţii
socio-profesionale şi economice (studii, ocupaţii, venituri etc). Măsurătorile se referă la ultimii
trei ani.
Y X1 X2
17 46 84
19 39 97
20 27 24
20 3 85
20 10 15
21 37 78
22 35 91
22 78 60
24 33 67
24 18 39
25 81 87
26 22 95
26 50 40
27 55 88
28 97 89
28 37 50
28 30 90
28 13 56
29 5 40
30 44 53
2
31 35 38
31 95 29
31 63 53
31 42 7
32 38 32
34 70 58
34 57 16
34 40 29
41 49 3
41 85 73
.......................
determinat de X 1 şi X 2 , adică se suprapun părţile de variaţie ale lui Y datorate lui X 1 cu cele
de X 3 = X 1 X 2 şi respectiv variaţiile explicate de X 2 cu cele explicate de X 1 X 2 .
3
………………
................................
4
pentru modelarea sistemelor de variabile care au predictori neindependenţi, care în cazul m-variat
revine la adăugarea la forma neliniară a+ b1 X 1 +... +bm X m a m termini de gradul al doilea
2 m( m −1)
X j , j=1,2,…,m şi termeni cu produse mixte de forma X i X j . Prin urmare se
2
introduce o modelare a interacţiunilor de ordinul al doilea prin produse mixte a doi preductori şi
respectiv puterea a doua a fiecărui predictor.
Ajustarea modelului neliniar se face prin interpretarea forţată a lui ca model liniar, dar se
pot aplica şi direct programe de regresie liniară. Rămân în discuţie aspecte legate de inferenţă
privind neândeplinirea ipotezelor iniţiale, dar modelarea neliniară a interacţiunilor oferă o cale de
ameliorare a neajunsurilor privind neîndeplinirea ipotezelor iniţiale.
.........................
Coeficienţii ecuaţiei de regresie ce conduc la modelul polinomial amintit mai sus nu mai
servesc ca pante ale dependenţelor univariate (ale lui Y faţă de Xj ) pentru că nu are sens să ne
referim la variaţiile lui Y când X2 creşte cu o unitate şi X este constant (nu poate controla X variaţia
lui X2). Putem însă să luăm ca măsură a proporţiei de variaţie neexplicată de partea liniară, care
este explicată de X2 în modelul prin polinom de gradul al doilea, în sensul că:
R 2 − r 2 YX
r2
YX 2 . X
=
1 − r 2 YX
Daxă X creşte cu o unitate Y creşte de b ori etc. Asemenea modele apar în demografie, în
economie la calculul dobânzilor etc.
Aceste modele, ca de altfel şi altele, sugerează folosirea unor transformări bine alese ale
uneia sau ambelor tipuri de variabile. În cazul acesta transformarea logaritmică aduce mari
avantaje în recuperarea unor condiţii ce perturbau ipotezele. În cazul univariat conduce la o nouă
formă a modelului care devine de tip liniar şi recuperează şi apropierea de normalitate a repartiţiei
condiţionate a lui logY şi reduce gradul de heteroscedasticitate.
M(logY)=loga+(logb)X
log Yˆ =log a
ˆ +(log ˆ) X
b şi apoi trecând la antilogaritmi, pentru că se pierd unele
interpretări şi semnificaţii cunoscute pentru variabilele iniţiale.
.................
................
O altă transformare recomandată atunci când variabila X creşte şi variabilitatea lui Y creşte
(ceea ce face suspectă aplicarea inferenţei), este Y care, deseori, posedă o variabilitate
omogenă şi liniară relativ la X. Dacă testăm ipoteza H 0 : b = 0 că panta relaţiei lui Y cu X să
fie zero obţinem că dacă Y nu tinde să varieze când X variază, aceeaşi concluzie se formulează
şi pentru media condiţionată a lui Y relativ la X.
...........
În cazul cînd deviaţa standard a lui Y este proporţională cu valorile lui X, transformarea
1 Y
sau conduce la o dependenţă pentru care σ 2 este constantă. De asemenea, când
X X
variabila dependentă creşte sau descreşte până la o anumită valoare a lui X şi apoi creşterea lui X
nu mai are efect asupra lui Y se recomandă transformarea amintită care este echivalentă cu
aplicarea metodei celor mai mici pătrate generalizate (ponderate).
6
Este important de reţinut că transformările care reduc gradul de heteroscedasticitate,
simultan ameliorează şi normalitatea repartiţiei condiţionate a lui Y relativ la X.
Desigur că, ulterior se trece la transformarea inversă pentru a obţine interpretări naturale
pentru medie, dispersie şi coeficienţi de corelaţie.
Una dintre căile pentru obţinerea de ameliorări este aceea de a comasa într-un singur
predictor pe cei ce sunt puternic corelaţi sau cu influenţe semnificative (aşa cum s-a procedat la
problema A).
O altă abordare este aceea a analizei factoriale (ANOVA) prin crearea de variabile
artificiale care se bazează pe combinaţii liniare ale unor predictori astfel ca cei obţinuţi să nu fie
puternic corelaţi.
O altă abordare, când ipotezele sunt puternic afectate, este de a trata datele ca fiind
calitative (ordonabile sau nominale) şi pentru care există măsuri speciale privind gradul de
asociere a datelor cum sunt măsurile Kendall ( τˆ,τˆb şi ν̂ ).
Există mai multe metode pentru determinarea celei mai bune submulţimi dintr-o listă de
posibil importanţi predictori independenţi sau nu şi care intră intr-un model de regresie
multivariată.
1.a) Se aplică programul de regresie pentru toţi cei m predictori iniţiali şi care oferă
valorile coeficienţilor b j asociaţi lui X j iar semnificaţia este dată de P- valoarea asociată
testului t pentru ipoteza H 0 : b j = 0 cu alternative H 1 : b j ≠ 0 .
b) Se elimină acel predictor ce are cea mai mare P-valoare ce exceed unui nivel de
semnificaţie prestabilit α , de regulă α =0,05; dacă toţi au P-valoarea sub 0,05 procedeul se
opreşte la cei m predictori.
7
Un dezavantaj al metodei este că nu se poate aplica mulţimilor de predictori cu mai mult
decât n (volumul eşantionului) elemente şi că orice predictor eliminat nu se mai poate reântoarce
în sistem.
……………………..
[ ]
1.a) Se calculează matricea de covariantă rX i X j , j=0,1,2,...,m în care X 0 = Y sau şirul
de coeficienţi rYX i , i=1,2,...,m şi se alege acel predictor X j pentru care rYX j ≥ rYX i , i ≠ j
b) Se caută cel mai bun model cu doi predictori aplicând programul de regresie pentru
fiecare pereche ( X j , X i ) şi se allege acea pereche ( X j , X k ) pentru care P-valoarea faţă de
testul t este cea mai mică. Dacă niciunul dintre predictori nu posedă o P-valoare mai mică decât
α , procedeul se opreşte la un sistem cu un singur predictor şi anume X j .
2. Se caută un sistem performant cu trei predictori considerând toate tripletele
( X j , X k , X h ) h ≠ j,k şi se adaugă acel X h pentru care P-valoarea testului t pentru ipoteza
H 0 : bh = 0 cu alternative H 1 : bh ≠ 0 este cea mai mică şi mai mică decât α , în caz contrar
precedeul se opreşte.
……………………..
Când procedeul nu mai găseşte predictori care împreună cu cei aleşi să aibă P-valoarea mai
mică decât α se opreşte, declarându-se a fi cel performant obţinut prin această metodă.
……………….
8
Metoda celei mai bune submulţimi de predictori
Această metodă îşi propune să găsească cea mai convenabilă submulţime cu un număr
precizat de predictori.
Dacă sistemul iniţial conţine m predictori şi dorim cel mai bun subsistem ar trebui să
testăm 2 m −1 subsisteme ceea ce este destul de costisitor, dar se poate aplica atunci când situaţia
o cere şi pentru m mic.
Selecţia se face pe baza a trei statistici: R 2 care este util când se compară subsisteme cu
acelaşi număr de predictori; R 2 ajustat care ameliorează neajunsul precizat pentru R 2 şi
statistica C p .
SSE m n −1 SSE k
R2 =1− , R 2 − ajust = ( R 2 − ) şi C p = − (n − 2 p)
SST n −1 n − m −1 MSE m
unde SSE k este suma pătratelor erorilor pentru cel mai bun model cu k < m predictori,
MSE m este media pătratelor erorilor pentru modelul cu m predictori: dacă k = m C p = p şi de
aceea diferenţa C p − p serveşte ca măsură a deplasării subsistemelor când k < m; de fapt dacă
sistemul cu k < m predictori nu este deplasat ne aşteptăm ca să aibă loc egalitatea C p = p = k+1.
În funcţie de valorile acestor statistici se alege un cel mai bun sistem; uneori se aleg două
astfel de sisteme căci, în general, diferă în funcţie de valorile acestor statistici.
....................
Trebuie reţinut că cele patru metode pot duce la rezultate diferite, dar nu prea îndepărtate
între ele. Desigur că, toate procedeele se bazeată pe date de pe un eşantion şi că date diferite
produc rezultate diferite. În plus, rezultatele sunt influenţate de interacţiunile dintre predictori, de
diferiţi „intruşi” sau neliniarităţi ale datelor. Se recomandă verificarea modelelor selectate şi
adaptarea lor la cerinţele cunoscute de cercetători, uneori chiar putând adăuga predictori impuşi de
teorii sau cunoştinte anterioare.
Problema B
def
M [ (Y − M (Y ))(X 2 − M ( X 2 ))]
ρ YX1 = σ YX2 = [ ][
M (Y − M (Y ))2 M ( X 2 − M ( X 2 ))2 ]
= 0,65 , ρ X X = 0,85
1 2
9
şi arătaţi că ρYX 1. X 2
= ρYX 2 . X1
=0,244 ...........
rYX 1 − rYX 2 rX 1 X 2
rYX 1 . X 2 = = 0,459 , rYX . X = −0,096
(1 − rYX2 2 )(1 − rX21 X 2 ) 2 1
Problema B1
Amintim că din inegalitatea lui Cebîşev se deduce că dacă avem o variabilă aproximativ
normală cu media zero valorile sale ar trebui să se distribuie simetric faţă de valoarea medie, când
volumul eşantionului este suficient de mare şi că 68% dintre valori se află pe segmentul [ −σˆ , σˆ ]
95% pe segmentul [−2σ ˆ] .
ˆ ,2σ
………………………….
În particular, orice valoare care de la stânga sau de la dreapta lui zero la o distanţă de mai
mult de 3 σ̂ este o valoare “străină” (intrusă) ce trebuie tratată special privind motivul
provenienţei ei.
variaţie a lui Y explicată de modelul bivariat parabolic corespunzător (şi nexplicată de modelul
liniar restrâns)
R 2 − rYX2 1 R 2 − rYX2 2
r 2
YX 12 . X 1
= , rYX2 2 . X =
1 − rYX2 1 2
1 − rYX2 2
Problema C1. Se ştie că numărul bărbaţilor de culoare albă din USA care mor la 1000 de
indivizi de o vârstă dată în decursul unui an este:
Se cere:
___
a) diagrama de împrăştiere ( xi , y i ) , i= 1,6 ;
b) graficul ( xi , log 10 y i )
11
not ∧
c) ecuaţia de regresie liniară M( log 10 Y / X ) = log 10 Y = log a + (log b) X
.................
x: 1 1 1 2 2 2 3 3 3 4 4 4
y: 0 1 2 1 3 5 2 5 9 5 1 1
0 4
şi se cere :
___
a) diagrama de împrăştiere ( xi , y i ) , i= 1,12 ;
___
b) efectuaţi transformarea Z= Y , prezentaţi diagrama de împrăştiere ( xi , z i ) i= 1,12 ;
................
Sexul
FEV1
FRC
TLC
PE max
BMP
RV
Nr. Pacient
Înălţimea
Greutate
12
13 14 0 160 45,6 93 45 174 139 108 100
25 23 0 179 71,5 95 52
13