Documente Academic
Documente Profesional
Documente Cultură
discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/24124493
CITATIONS READS
0 93
3 authors, including:
Some of the authors of this publication are also working on these related projects:
Non-linear modeling of the impact of the crisis on the interactions among financial markets and
macroeconomic variables in CEE Countries View project
All content following this page was uploaded by Corina Saman on 29 May 2014.
Rezumat
MathCad-ul ne oferă posibilitatea de a face o analiză a datelor şi de a testa modele posibile într-un
mod simplu şi uşor de folosit dacă cunoastem matematica care se afla în spatele modelului.
Putem verifica ipotezele modelului regresiei cum ar fi dispersia constantă a erorilor, testarea
ipotezelor statistice faţă de coeficienţi, corelaţia erorilor, normalitatea erorilor ca variabile
aleatoare.
Cuvinte cheie: regresie, ipoteze statistice
JEL: C22(Time-Series Models), C51(Model Construction and Estimation)
Pachetul Mathcad intră în categoria mediilor soft care asistă utilizatorul specialist într-un anumit
domeniu. Permite realizarea de calcule matematice foarte complexe precum şi activităţi conexe
cum ar fi reprezentări grafice, realizarea unei documentaţii, precum şi posibilitatea de export spre
alte medii Windows.
Comenzile principale:
• File: operaţii uzuale privind fişierul ca entitate, deschidere, salvare, tiparire, transmitere prin fax
sau poştă electronică
• Edit: comenzi de “dactilografiere inteligentă”: ştergere, copiere, etc.
• View: se referă în special la subseturile de comenzi dedicate pentru diferite operaţii matematice şi
care sunt grupate în seturi (palete) ce pot fi activate prin paleta matematică
• Insert: se referă la obiecte matematice complexe cum sunt grafice de funcţii, tabele (matrici)
funcţii (sistemul conţine în formă predefinită cele mai cunoscute funcţii matematice)
• Format: se referă atât la indicaţii de “înfăţişare” a lucrării cât şi la formate specifice calculelor
matematice (cum este de exmplu numărul de zecimale care se afişează)
• Math: priveşte comanda de începere a calculelor dar şi indicaţii referitoare la unităţile de măsură
• Symbolics: reprezintă un element de noutate în raport cu calculele numerice şi conţine elemente de
inteligenţă artificială care permit evaluări simbolice (primitive sau derivare simbolică)
*
Institutul de Prognoză Economică, Academia Romană
• Window: permite gestiunea mai multor lucrări
• Help: mediu complex care conţine indicaţii de utilizare
Detalierea comenzilor. Tot ceea ce ţine de tratarea fişierului ca entitate, vizualizare, tipărite editare,
ferestre, help, sunt foarte asemănătoare cu alte pachete din mediul Windows (Word, Excel, etc.)
Calcule numerice
Integrala definită a unei funcţii a cărei primitivă nu este exprimabilă prin 2
funcţii elementare. În cazul funcţiilor ale căror primitive se exprimă prin x
2
e d x = 0.135
funcţii elementare se poate apela şi la calculul simbolic 1
Sisteme de ecuaţii
Sistemele de ecuaţii liniare se rezolvă direct prin calcule cu matrici dar se pot
rezolva şi ecuaţii sau sisteme de ecuaţii neliniare. Este necesară introducerea x 4 y 2
unor valori iniţiale pentru x şi y (semnificaţia acestei introduceri poate fi given
explicată numai după ce vor fi însuşite cunoştinţe de analiză numerică). Este 2
posibil ca, uneori, să nu fie obţinută soluţia sistemului daca valorile de start x 3y x 5
nu satisfac anumite condiţii. 2 x. y 3
În exemlul alăturat semnul = se obţine prin selectare din tabelul de operatori 1
de tip logic. Soluţia se obţine prin apelul funcţiei find care are exact acest rol. find( x, y ) =
1
Analiză statistică
MathCad-ul ne oferă posibilitatea de a face o analiză a datelor şi de a testa modele posibile într-un
mod simplu şi usor de folosit dacă cunoaştem matematica care se afla în spatele modelului.
Estimarea, deducţia şi predicţia sunt posibile pentru orice model simulat.
Cînd experimentăm modele posibile asociate fenomenelor economice trebuie luate decizii în
funcţie de rezultatele obţinute în testarea ipotezelor statistice. In MathCad este suficient să
formulăm ipoteza statistică, apoi măsurarea coincidenţei dintre valorile observate şi cele pe care
ipoteza statistică le validează ca adevărate se face simplu calculînd statistica asociată ipotezei. Este
necesar numai să traducem în formula potrivită ipoteza statistică. Avem un test statistic care este o
funcţie a datelor observate. Tinînd cont că ipoteza nulă determină distribuţia de probabilitate a
acelui test statistic care apoi determină probabilitate este simplu de construit orice test satistic.
In cele ce urmează vom explora posibilităţile de analiză a validităţii unui model de regresie liniară
pe care ni le ofera MathCad-ul. Si acestea sunt: estimatori după metoda celor mai mici pătrate,
verificare ipotezelor modelului liniar, deducţii asupra parametrilor funcţiei liniare, măsura potrivirii
modelului pentru datele observate, analiza tabelei varianţei pentru regresie.
Datele folosite în exemplele de mai jos sunt: producţia industrială pi (variatie lunară,%), somajul
somaj (rată lunară,%) si inflaţia inf (rată lunară,%) pentru perioada ianuarie 2000 - ianuarie 2002.
Conditiile impuse de Modelul regresiei Liniare
1. Variabila dependenta Y este o functie liniara de X.
2. Variabila eroare ε este componenta aleatoarea a modelului linear.
Valorile luiX sunt presupuse fixe.
3. Termenii eroare corespunzatori obsevatiilor sunt necorelati. In plus, pentru orice valori date
pentru X, erorile sunt variabile aleatoare normal distribuite cu media zero si dispersie constanta
Cautam cei mai buni estimatori pentruintersectia cu axa Ox ( β 0) si panta dreptei ( β 1) , in cazul
modeluluiregresiei liniare simple dat prin ecuatia:
Yi β 0 β 1 . Xi εi
y
i
2
0
10 0 10
x
i
b 1.xi
2
SSE b 0 , b 1 yi b0
i
Putem obtine o solutia folosin metoda de rezolvare a sistemelor de ecuatii in Mathcad
Valori initiale: b0 1 b1 1
Blocul ecuatiilor
Given
n.b 0 b 1.( x ) y
b 0.( x ) b 1. x .y
2
x
b0
Find b 0 , b 1
b1
b 0 = 2.525 b 1 = 0.04
SSE b 0 , b 1 = 18.58
Metoda celor mai mici patrate produce estimatorii cei mai buni - the best linear unbiased estimators
(BLUE) - pentru coeficienti. Asta inseamna ca au dispersia minima.
intercept ( x , y ) intercept ( y , x )
slope ( x , y ) slope ( y , x )
y lin ( x ) b0 b 1.x
se vede pe grafic si de asemenea punctele observate si rezidualele. Punctul dat de valorile medii ale
variabilelor aleatore:
( mean ( x ) , mean ( y ) )
1
15 10 5 0 5 10 15
Valorile observate
Linia de regresie
Erorile Residuale
(mean(x), mean(y))
SSE b 0 , b 1
MSE MSE = 0.774
n 2
Aceasta definitie urmareste ideea ca dispersia este media sumei patratelor deviatiei fata de linie.
Impartim prin (n - 2) deoarece am estimat deja cei doi parametrii β 0 si β 1 . Un estimator pentru
abaterea standard a erorilor σ este standard error of estimate
x pi y inf
e y y lin ( x , y )
2
e
se_e ( e ) se_e ( e ) = 0.88
rows ( e ) 2
Reziduale Standardizate
e
standard_e ( e ) standard_e ( e ) 1 = 0.119
se_e ( e )
Reziduale Studentizate
Un alt estimator pentru abaterea standard s a unei variabile X este:
2
1 xi mean ( x )
i 0 .. n 1 leveragei . leverage0 = 0.055
rows ( x ) 1 Var ( x )
se_e ( e )
student_e i
1
1 leveragei
rows ( x )
Graficul Rezidualelor
Daca datele urmeaza o relatie liniara atunci graficul rezidualelor standardizate (sau studentizate
axa (y-axis) fata de valorileX sau fata de valorile previzionate de model nu vor prezenta nici un
model evident ci vor fi repartizate aleator.
4
4
2
2
standard_e ( e ) student_e
i i
0 0
2 2
20 10 0 10 20 20 0 20
x x
i i
2
standard_e ( e )
i
2
1.5 2 2.5 3 3.5
y lin ( x , y )
i
Daca datele nu respecta modelul liniar reziduale vor prezenta grafic un model(pattern) . De exemplu
daca generam aleator un esantion de 100 valori dintr-o o serie de date care urmeaza o functie
exponentiala:
n_esantion 100 nr 20
8
6 10
8
4 10
y exp 8
k 2 10
8
2 10
0 5 10 15 20
x exp
k
si rezidualele
10
5
standard_e e exp
k
0
5
0 5 10 15 20
x exp
k
m 8 b 2 y lin m .x lin b ε
200
100
y lin
k
0
100
0 5 10 15 20
x lin
k
standard_e e lin
k 0
5
0 5 10 15 20
x lin
k
Corelatia Erorilor
Putem verifica daca exista corelatie intre termenii alaturati in seria erorilor folosind statistica
Durbin-Watson (DW ).
e y y lin ( x , y )
rows ( e ) 1
2
ed ed 1
d = 1
DW ( e )
rows ( e ) 1
2
ed
d = 0
DW ( e ) = 1.867
Valori pentru statistica Durbin-Watson mai mici decit 2 indica corelatie positiva
pentru erori si valori mai mari decit 2 o corelatie negativa. Totusi aceasta statistica
nu poate da un raspuns decit pentru corelatia termenilor alaturati.
2
R masura pentru dependenta cauzala intre variabila
independenta si cea dependenta
Dependenta dintre variabile se poate exprima prin covarianta
E X µx . Y µy
rows ( pi ) 1
pii µ pi . infi µ inf .1
n
i= 0
ρ pi.inf
σ pi . σ inf
y inf x pi
e y y lin ( x , y )
2
e
Si estimatorul pentru abaterea standard este deci se_e ( e ) se_e ( e ) = 0.88
rows ( e ) 2
2
( e)
R2 pi.inf 1 R2 pi.inf = 0.101
2
(y mean ( y ) )
se_e ( e )
se_b1 ( x , y )
se_b1 ( x , y ) = 0.024
2
(x mean ( x ) )
slope ( x , y ) β 1
t x,y,β 1 t ( x , y , 0 ) = 1.643
se_b1 ( x , y )
Să incercăm şi o regresie multiplă. Datele folosite sunt producţia industrială pi (variaţie lunară,%),
şomajul şomaj (rată lunară,%) şi inflaţia inf (rată lunară,%) pentru perioada ianuarie 2000 - ianuarie
2002. In ordinea dată ele se regăsesc şi in matricea DATE.
Variabila dependenta inflatia, adica :
<2>
y DATE
marimea esantionului: n rows ( DATE )
0
x_col p rows ( x_col ) p = 2
1
Matricea X a variabilelor indepedente:
X for i ∈ 0 .. n 1
Xi , 0 1
for j ∈ x_col
< j 1 > <j>
X DATE
X
ylin X. b e y ylin
Gradele de libertate
Cum avem (p + 1) parametrii de estimat avem
grL_erori n (p 1) grL_erori = 23
grL_total n 1 grL_total = 25
grade de libertate si grL_erori grL_regresie grL_total
Pentru a estima dispersia impartim suma patratelor la nr. de grade de libertate. Media
abaterilor patratice pentru erorile reziduale
SSE
0
MSE
grL_erori
este o estimatie pentru dispersia erorilori σ2 , sau abaterea neexplicata de regresie. (Vom
identifica SSE ca fiind primul element din vector.) Alti doi estimatori pentru dispersia
care este explicata de modelul regresiei respectiv dispersia totala sunt:
SSR 0 SST 0
MSR MST
grL_regresie grL_total
Testul F
In cazul ipotezei nule
SSR MSE
0
R2 si R2_ajustat 1 dau masura potrivirii modelului de regresie liniara.
SST MST
0
Analiza Abaterilor
GradeLibertate SS MS F R2
grL_regresie = 2 SSR = 4.408 MSR = 2.204 F = 3.117 R2 = 0.213
grL_erori = 23 SSE = 16.262 MSE = 0.707 p-value R2_ajustat = 0.145
Abaterea explicata de regresia liniara ( MSR) este mai mare decit cea datorata erorilor
reziduale (MSE). Diferenta este destul de mare (valoarea p-value este suficient de mica)
pentru a respinge ipoteza nula.
Corelatia dintre variabilele modelului este data in matricea CORR
<j > <k >
j 0 .. p k 0 .. p CORR j , k corr DATE , DATE
x1 x2 x3
1 0.268 0.318 x1
CORR = 0.268 1 0.237 x2
0.318 0.237 1 x3
Cea mai mare valoare a corelatiei dintre variabilele independente este cea intre variabilele
(x1 and x2 )
CORR
1, 0
= 0.268
Teste T
b0
0.522
b = 0.052 unde b b1
0.196
b2
b
1
Forma statisticii t este aceeasi ca si in cazul regresiei simple. In ipoteza nula, t
se_b1
urmeaza o distributie t student cu (n - 2) grade de libertate . Valuarea se_b1 este
abaterea standard a erorii pentru parametrul b1
Putem estima varianta necunoscuta σ2 prin abaterea medie patratica "mean square error: ( MSE ),
1
Var_Covar_b X
T .X .MSE
b0 b1 b2
Var_Covar_b
1, 1
= 5.891 10 4 este o estimatie a variantei/dispersiei lui b 1 .
Erorile Standard ale Parametrilor Estimati
Prin definitie vectorul cu erorilor standard ale parametrilor estimati poate fi obtinuta
astfel:
k 0 .. p
1.119
se_b k Var_Covar_b k , k se_b = 0.024
0.108
Statistica T
0.467
b
t t = 2.142
se_b
1.81
Considerind ipoteza nula,
H0: β k = 0
k = 0, 1, 2, ..., p , fiecare test statistic urmeaza o distributie t student cu n (p 1 ) = 23
2 . pt t k , grL_erori otherwise
Tabelul Coeficientilor Regresiei
b0
0.522 1.119 0.467 0.645
b1 b = 0.052 se_b = 0.024 t = 2.142 p_t = 0.043
0.196 0.108 1.81 0.083
b2
vom respinge ipoteza nula privind neimportanta pentru model a variabilei pentru care
conditia este 1
0 intercept
cond j ( α j p_t j ) cond = 1 x1
0 x2
Daca conditiile impuse de model sunt indeplinite si nu avem multicoliniaritate, cu un nivel de
semnificatie α = 0.05 vom pastra in model variabila x1 si vom exclude x2 .
β 1 . pi
2.
Daca incercam un model de tip inf β0 β1 somaj ε
<0> <0>
x1 DATE n rows ( DATE )
<1>
x2 DATE
i 0 .. n 1
<2>
y DATE
β 1 . x1
2.
Modelul este y = β0 β1 x2 ε
In aceste cazuri intrinsec neliniare putem aplica metoda celor mai mici patrate.
b 0 0 b 1 0
Given
2.yi 2.b 0 2 . b 1 . x1 i 2 . b 1 . x2 i
2
0
i
2. yi b 1 . x1 i b 1 . x2 i . 2 . b 1 . x2 i
2
b 0 x1 i 0
i
b 0
Find b 0,b 1
b 1
b 0 = 2.508 b 1 = 0.041
2
si calculam SSY y SSY = 182.67 cu n grade de libertate grL_total n
2
b 1 . x1
2.
SSE y b 0 b 1 x2
SSE SSR
MSE MSR
grL_erori grL_regresie
d
b 1 . x1 i
2.
Ji , 1 b0 b1 x2 i
db1
4
0.026 2.869 10
Var_Covar =
4 4
2.869 10 5.633 10
Luam apoi radacina patratica din elementele de pe diagonala pentru a obtine erorile standard
pentru parametrii estimati
j 0 .. p 1
0.161
se j Var_Covar j , j se =
0.024
α t
t qt 1 , grL_erori
2
int_stinga b0 b0 t . se 0 int_dreapta b0 b0 t . se 0
si apoi pentru b 1,
int_stinga b1 b1 t . se 1 int_dreapta b1 b1 t . se 1
Parametrii
Erorile Standard Intervalele de incredere
Estimati
b 0 = 2.508 se 0 = 0.161 int_stinga b0 = 2.176 int_dreapta b0 = 2.84
3
b 1 = 0.041 se 1 = 0.024 int_stinga b1 = 0.09 int_dreapta b1 = 7.929 10
Cum intervalul prntru b1 contine valoarea 0 concluzionam ca acest parametru nu este semnificativ
pentru model. Deci modelul nu este potrivit.
Bibliografie