Sunteți pe pagina 1din 21

1.

Specificarea modelului
Cu ajutorul regresiei liniare, se poate determina impactul pe care il au mai multe variabile independente asupra unei variabile dependente. Am ales sa analizez prin intermediul unui model multifactorial in ce raport camioanele, motocicletele, noile inregistrari pentru motociclete si lungimea drumurilor influenteaza persoanele care decedeaza in urma unui accident rutier, in anul 2009. Datele au fost preluate de siteul Eurostat. Tabel centralizator:

1.Statisticile descriptive Caracterizarea unei distribuii - trebuie s surprind trei aspecte: a. tendina central (referit uzual ca "medie" dei poate fi vorba de indicatori statistici diferii)

b. mprtierea (ct de mult sunt repartizate sau deprtate valorile) c. forma distribuiei (simetria - asimetrie, aplatizare) Rezumate pentru evaluarea tendinei centrale - ofer o valoare de prognoz, ncrederea depinde de gradul de mprtiere a valorilor 1. Mod - cea mai frecvent valoare; este utilizat n special pentru date discrete. Pentru date continue se obinuiete gruparea datelor i mijlocul intervalului modal. 2. Mediana - valoarea care depete jumtate dintre observaii (quantila de ordin 0.5); este o valoare "negociat" pentru date ordinale (valoarea care mparte cel mai bine observaiile). Deoarece presupune ordine ntre valori, nu se aplic datelor nominale. Este un indicator de tendin central preferat n locul mediei pentru distribuii continue asimetrice. 3. Media - este media aritmetic a valorilor msurate, utilizat pentru date continue.

2.Regresia multipla Regresia liniar, prin metoda celor mai mici ptrate, este metoda de modelare cea mai des utilizat. Este metoda denumit regresie, regresie liniar, regresie multipl sau cele mai mici ptrate atunci cnd se construiete un model. Scopul regresiei multiple este de a evidenia relaia dintre o variabil dependent i o mulime de variabile independente. Prin utilizarea regresiei multiple se ncearc, adesea, obinerea rspunsului la una dintre ntrebrile:care este cea mai bun predicie pentru ?, cine este cel mai bun predictor pentru ? .

Multiple R = 0.68869082 reprezinta coeficientul de corelare intre variabilele x si y -> pozitiv, exista o legatura directa, destul de puternica. R Square = 0.474295 reprezinta coeficientul de determinatie, reprezinta proportia in care variabilele x influenteaza y , restul pana la 53% o reprezinta influenta altor variabile. Adjusted R Square = 0.401784 reprezinta R Square ajustat cu numarul de grade de libertate, este mai mic decat R Square Significance F = 0.00070329 < 0.05 => modelul este semnificativ P-value < 0,05 =>indicatori nesemnificativi. Ecuatia modelului: y = 993.5966 + 0.00047792X1 + -0.0290616X2 + 0.0002029X3 + 0.00464156X4 + e Arata cu cat se modifica y la cresterea cu o unitatea a lui x.

3. Testarea homoscedasticitatii GQ

H: erori homoscedastice H: erori heteroscedasice Etape: 1.Identificarea variabilelor x ce induc in model homoscedasticitatea 2.Ordonam crescator variabilele x 3.Se omit un set de valori .Setul poate fi n/3 sau n/4. Raman doua parti egale, pentru acestea se calculeaza modelul de regresie si se calculeaza variatia reziduala(SSE). Se calculeaza statistica GQ = SSE max/ SSE min care se compara cu F tabelar.

Daca valoarea calculata este mai mare decat valoarea din tabel se respinge ipoteza H.

A doua serie de date :

4. Testul Glejser
Are la baza un model de regresie intre variabila reziduala si variabilele independente. Pentru decizia testului ne uitam la coeficientii ce apartin variabilelor independente care nu trebuie sa fie seminificativi pentru a accepta ipoteza de homoscedasticitate. P-value > 0,05 => se indeplineste ipoteza de homoscedasticitate.

5.Testul White

n statistica, testul White este un test care stabileste daca varianta reziduala unei variabile ntr-un model de regresie este constant (homoscedasticitate). Pentru a testa constanta unei variatii se introduc intr-o regresie patratele reziduurilor de la un model de regresie, regresori si regresorii la patrat.

Ceea ce ne intereseaza este valoarea lui R Square pe care o vom inmulti cu numarul de observatii ale serie de date si il vom compara cu 2,k unde k reprezinta numarul de variabile ale modelului nou definit. Testul LM(White) este N*R2 = 33*0.19149 = 6.319270889 (2,k(0,05;k=5)=12,59) rezulta ca erorile modelului sunt homoscedastice (intrucat valoarea testului LM este mai mica decat valoarea tabelata a 2,k).

6. Testul Jarque Bera

7. Testul Durbin-Watson

Statistica Durbin-Watson este o statistica de testare utilizate pentru a detecta prezenta a autocorelarii n reziduale de la o analiza de regresie. Statistica DW este tabelata, valorile ei depinzand de nivelul de semnificatie precizat, denumarul de observatii in esantion si de numarul variabilelor de influenta din modelul deregresie. Statistica test DW pentru un nivel de semnificatie precizat are 2 valori critice dL si dU ce se obtin din tabele. Specificarea ipotezelor: H : p=0 H : p 0 p => coeficient de autocorelare p= 1=> autocorelare pozitiva p= - 1 => autocorelare negative p= 0 => nu exista autocorelare

Nivelul de semnificatie este probabilitatea de respingere a ipotezei nule, atunci cand aceasta este adevarata. Nivelul de semnificatie ales pentru acest proiect este de 0,05. Decizia: Daca DW intre 0 si dL respingem H0 ,autocorelatia de ordinul I fiind pozitiva Daca DW intre 4-dL si 4, respingem H0 ,autocorelatia fiind negativa Daca DW intre dU si 4-dU nu se confirma prezenta autocorelatiei. Daca DW intre dL si dU sau intre 4-dL si 4-dUtest ul nu este concludent

8. Multicoliniaritate(Klein)
Pornind de la aceast regul, testul lui Klein, const n compararea R calculat pe modelul cu k variabile explicative cu r . Dac R < r , atunci exist o prezumpie de multicoliniaritate.

Exist mai multe reguli de remediere a multicoliniaritii, dar care nu reprezint metode sigure de nlturare a ei. =>creterea volumului eantionului este eficient numai dac se adaugobservri semnificativ diferite de cele care sunt deja considerate n model, ncaz contrar, multicoliniaritatea se menine; =>nlturarea variabilei puternic corelate poate conduce la o specificareincorect a modelului. Eroarea de specificare duce la obinerea de estimatorieronai, fiind mai duntoare dect acceptarea unei multicoliniariti mici; =>transformarea variabilelor n serii ale diferenelor de ordinul 1. Modelul de regresie pe diferenele de ordinul 1, reduce severitatea multicoliniaritii

Pentru acest test ne intereseaza ca variabilele independente sa nu fie corelate intre ele. Aplicam din Data Analysis-Correlation asupra variabilelor. Astfel vaoarea acestui coeficient trebuie sa fie mai mica decat R Square a modelului de regresie liniara.