Sunteți pe pagina 1din 22

Seminar aplicatii ale metodei de regresie liniara simpla (unifactoriala)

Modelare Economica semestrul II, an univ. 2010- 2011

ME aplicatii seminar - an univ. 2010-2011

Metode cauzate - Regresia


Scopul analizei de regresie: de a arta cum este legat o variabil Y de una sau mai multe variabile Xi cu ajutorul unei ecuaii care d posibilitatea de a previziona variabilele dependente n funcie de valorile cunoscute ale variabilelor independente Xi. Prin analiza de corelaie se urmrete: msurarea gradului de interdependen ntre variabila dependent Y i variabilele independente Xi, interdependen explicat prin ecuaia de regresie utilizat.

ME aplicatii seminar - an univ. 2010-2011

Corelatia
evaluarea gradului de asociere ntre variabilele independente, atunci cnd ecuaia de regresie conine cel puin dou variabile independente Xi. Aceasta arat n ce msur dou valori sunt legate ntre ele intensitatea legturii este exprimat cu ajutorul a doi indicatori: coeficientul de corelaie (R) msoar puterea relaiei de dependen liniar printr-o valoare numeric ntre 1 i 1 coeficientul de determinare (R2) - msoar reducerea relativ n variaia lui Y ce poate fi atribuit cunoaterii factorilor Xi i a relaiei Y = f(X).

De exemplu, o valoare R2=0.76 indic c aproximativ 76% din variaia total a variabilei Y poate fi explicat prin variabilele dependente X incluse n model (o valoare 0.8 este considerat acceptabil).

ME aplicatii seminar - an univ. 2010-2011

Regresia liniar simpl


- exprimat prin ecuaia de regresie: Pentru a aprecia semnificaia estimatorilor: pentru un set de date de volum Yi a b xi se aplic testul Student cu n-2 grade de libertate n 30 pentru n 30se aplic testul z al distribuiei normale[1] formulnd ipotezele: H0: a=0 i b=0 i Ha : a si b au semnificatie statistica
a
atunci ipoteza H se respinge i se apreciaz ca a i b sunt Dac a i 0 b semnificativi din punct de vedere statistic.

[1] Teorema de limit central stabilete c suma (i media) unei mulimi de variabile aleatoare urmeaz o distribuie normal, dac eantionul este suficient de mare, indiferent de forma distribuiei de la care provine variabila individual. Teorema este folosit adesea pentru a explica ipoteza de normalitate a termenului de eroare n studiul econometric, care permite folosirea testului statistic t pentru testarea ipotezelor, deoarece acest termen de eroare se presupune c nglobeaz suma unei mulimi aleatoare de factori necunoscui (omii).

ME aplicatii seminar - an univ. 2010-2011

Interpretarea rezultatelor testarea semnificatie coeficientilor de regresie


Test statistic (statistical test) formula matematica sau functie care se foloseste pentru a stabili diferentaobservata intre rezultatele obtinute in grupul tratat si cele obtinute in grupul de control sunt suficient de mari pentru a concluziona ca sunt statistic semnificative. Testele statistice determina o valoare care se asociaza cu valoarea lui P. Exista mai multe tipuri de teste statistice: F, t, Z si chi-patrat. Alegerea tipului de studiu depinde de conditiile in care se realizeaza studiul, ex. ce variabile de rezultat exista, daca sau nu pacientii din studiu au fost in mod randomizat alesi dintr-o populatie generala sau daca se poate sustine ca rezultatele finale intr-o populatie au o distributie normala sau un alt tip de distributie. Testarea ipotezei (hypothesis testing) modalitatea de interpretare a rezultatelor unui studiu clinic (trial) care implica stabilirea probabilitatii ca observarea unui efect la tratament sa fi aparut numai datorita intamplarii (sansei) daca ipoteza specificata se dovedeste adevarata. In mod normal ipoteza specificata este o ipoteza nula, care este formulata inainte de inceperea sudiului si presupune ca interventia din studiu nu are un efect real / adevarat. Testarea ipotezei se foloseste pentru a determina daca ipoteza nula este sau nu respinsa Ipoteza nula (null hypothesis) in testarea ipotezei, ipoteza care spune ca interventia nu are nici un efect ex. arata ca nu exista nici o deosebire intre rezultatele obtinute de grupul de tratament si cele din grupul control. Daca testul statistic indica faptul ca valoarea P se afla la sau deasupra unei valori specificate a (ex. 0.01 sau 0.05, care reprezinta probabilitatea de a face eroare pozitiva - false-positive error) atunci orice efect observat al tratamentului nu este semnificativ statistic iar ipoteza nula nu poate fi respinsa. Daca valoarea P este mai mica decat valoarea specificata a lui a, atunci efectul tratamentului este statistic semnificativ iar ipoteza nula va fi respinsa. Daca intervalul de incredere (ex. de 95% sau 99%) include efect 0 al tratamentului , atunci ipoteza nula nu poate fi respinsa .

ME aplicatii seminar - an univ. 2010-2011

Interpretarea rezultatelor testarea semnificatie coeficientilor de regresie

Intervalul de incredere (confidence interval) - stabileste gradul de incertitudine privind estimarea construita. Se calculeaza din diferenta observata intre datele reale obtinute si cele obtinute in grupul de control si dimensiunea esantionului de studiu. Intervalul de incredere este sirul de valori aflate deasupra si sub punctul estimat care este probabil si include valoarea adevarata a efectului tratamentului. Folosirea intervalului de incredere presupune ca un studiu furnizeaza un esantion de observatii (din multe esantioane posibile) care ar fi obtinut daca studiul se repeta de mai multe ori. Frecvent se foloseste un interval de incredere de 90% , 95% sau 99%. Astfel exista o probabilitate de 95% ca intervalul de incredere 95% calculat intr-un studiu sa includa valoarea reala a efectului tratamentului. De exemplu, in testarea unui tratament medical, daca intervalul de incredere include un efect terapeutic nul ipoteza nula care spune ca nu exista nici un efect al tratamentului nu poate fi respinsa. Semnificatie statistica (statistical significance) concluzia, stabilita cu un test statistic, ca o interventie are un efect real, bazata pe diferenta observata intre rezultatele obtinute in grupul tratat si cele obtinute in grupul de control, grupuri care sunt suficient de mari astfel incat diferentele sa nu fie datorate intamplarii. Semnificatia statistica indica probabilitatea ca diferentele observate sa se datoreasca sansei daca ipoteza nula este adevarata; nu furnizeaza informatii despre magnitudinea efectului unui tratament. (Semnificatia statistica este necesara dar nu suficienta in stabilirea semnificatiei clinice). Valoarea P (P value) in testarea ipotezei, probabilitatea ca o diferenta observata intre rezultatele obtinute in grupurile de interventie si control sa se datoreze numai intamplarii (sansei) daca ipoteza nula este adevarata. Daca valoarea lui P este mai mica decat valoarea specificata a (in mod uzual 0.01 sau 0.05) aleasa de la inceput in studiu, atunci ipoteza nula va fi respinsa.

ME aplicatii seminar - an univ. 2010-2011

Semnificaia statistic a parametrilor modelului


Distribuia t (Student)*1+ se folosete n testele ipotezelor pe eantioane mici i n care variana variabilei respective trebuie estimat n raport cu datele. Este o distribuie de probabilitate n form de clopot, n care valoarea medie este egal cu zero, dispersia variabilelor n jurul valorii medii fiind dependent de gradele de libertate*2+ dictate de mrimea eantionului. Gradele de libertate arat numrul de elemente informaionale care pot varia independent unul de altul; se spune c un eantion de n observaii are n grade de libertate. De exemplu, calcularea unei medii simple a eantionului implic pierderea unui grad de libertate deoarece variaiile independente n n-1 din observaiile din eantion vor necesita o schimbare compensatorie n cel de al n lea grad de libertate, pentru a se menine valoarea medie a eantionului. Tot astfel, calcularea valorilor pentru un numr de k parametri n cadrul unui exemplu econometric implic pierderea a k grade de libertate, rmnnd (n-k). Dac erorile sunt distribuite normal se ateapt ca aproximativ 68% dintre valorile lui y s fie situate ntr-un interval mai mic de (eroarea standard de previziune) uniti fa de valoarea medie, sau 95% la mai puin de 2 sau 99% la mai puin de 3. Fiecare din parametrii estimai este caracterizat de o eroare standard deoarece determinarea lor se face pe baza unui eantion de date; probabil un alt eantion ar duce la obinerea altor valori ale parametrilor modelului. Valoarea aproximativ a statisticii t de verificare a semnificaiei coeficienilor modelului se calculeaz cu relaia:
t coeficient estimat valoarea coeficient ului prin ipoteza eroarea s tan dard estimata a coeficient ului

Ca regul, se realizeaz excluderea din model a oricrui coeficient pentru care . Orice coeficient pentru care este diferit de zero la un nivel de semnificaie de aproximativ 5%. Includerea n model a unor coeficieni cu valori absolute ale statisticii testului t substanial mai mici dect 2,0 va spori numrul parametrilor modelului i va duce la reducerea preciziei prediciei.
[1] Testul t este testul cel mai des utilizat n analizele economice cantitative i este definit ca raportul dintre o variabil normal i o variabil mprit la numrul gradelor de libertate. [2] Gradele de libertate arat numrul de elemente informaionale care pot varia independent unul de altul. Se spune c un eantion de n observaii are n grade de libertate. Totui, calcularea mediei simple a eantionului implic pierderea unui grad de libertate deoarece variaiile independente n n-1 din observaiile din eantion vor necesita o schimbare compensatorie n cel de al - n -lea grad de libertate, pentru a se menine valoarea medie a eantionului. Tot astfel, calcularea valorilor pentru un numr de k parametri n cadrul unui exemplu econometric implic pierderea a k grade de libertate, rmnnd (n-k). Gradele de libertate intr adesea ca parametri n distribuii de probabilitate (distribuia t sau ) crora le poate afecta alura n mod fundamental. ME aplicatii seminar - an univ. 2010-2011 7

Interpretarea riscului de acceptare / respingere a H0


Eroare de tip I este dat de respingerea ipotezei nule atunci cnd, de fapt, aceasta ar fi trebuit acceptat; se confirm/valideaz o ipotez care nu este adevrat impact: concluzii gresite care pot duce la identificarea unor soluii/decizii inadecvate Eroarea de tip II este urmarea acceptrii ipotezei nule cnd, de fapt, aceasta trebuie respins: n fapt, se ignor/ se pierde un efect important in consecint, se pot trata dou alternative/ opiuni ca identice dei, n realitate, acestea sunt diferite.

ME aplicatii seminar - an univ. 2010-2011

Principiul analizei dispersionale

DATA = FIT + RESIDUAL

ME aplicatii seminar - an univ. 2010-2011

Perform a regression analysis


Linear regression produces the slope of a line that best fits a single set of data. Based on a year's worth of sales figures, for example, linear regression can tell you the projected sales for March of the following year by giving you the slope and y-intercept (that is, the point where the line crosses the yaxis) of the line that best fits the sales data. By following the line forward in time, you can estimate future sales, if you can safely assume that growth will remain linear. Exponential regression produces an exponential curve that best fits a set of data that you suspect does not change linearly with time. For example, a series of measurements of population growth will nearly always be better represented by an exponential curve than by a line. Multiple regression is the analysis of more than one set of data, which often produces a more realistic projection. You can perform both linear and exponential multiple regression analyses. For example, suppose you want to project the appropriate price for a house in your area based on square footage, number of bathrooms, lot size, and age. Using a multiple regression formula, you can estimate a price, based on a database of information gathered from existing houses.

Linear regression The equation y = mx + b algebraically describes a straight line for a set of data with one independent variable where x is the independent variable, y is the dependent variable, m represents the slope of the line, and b represents the y-intercept. If a line represents a number of independent variables in a multiple regression analysis to an expected result, the equation of the regression line takes the form y=m1x1+m2x2+...+mnxn+b in which y is the dependent variable, x1 through xn are n independent variables, m1 through mn are the coefficients of each independent variable, and b is a constant.

ME aplicatii seminar - an univ. 2010-2011

10

Calculating exponential regression


Unlike linear regression, which plots values along a straight line, exponential regression describes a curve by calculating the array of values needed to plot it. The equation that describes an exponential regression x1 x2 xn curve is y = b * m1 * m2 * * mn If you have only one independent variable, the x equation is y = b * m

ME aplicatii seminar - an univ. 2010-2011

11

Analysis ToolPak (Pachet de instrumente de analiz)


Instrumentul de analiz Regresie execut analiza de regresie liniar prin utilizarea metodei ptratelor mici pentru a gsi o linie care corespunde unui set de observaii. Avei posibilitatea analizrii modului n care o singur variabil dependent este afectat de valorile uneia sau a mai multor variabile independente. http://office.microsoft.com/ro-ro/excel-help/despreinstrumentele-de-analiza-statistica-HP005203873.aspx

ME aplicatii seminar - an univ. 2010-2011

12

Lucrul cu EXCEL - Perform a regression analysis


Linear regression produces the slope of a line that best fits a single set of data.
Based on a year's worth of sales figures, for example, linear regression can tell you the projected sales for March of the following year by giving you the slope and y-intercept (that is, the point where the line crosses the yaxis) of the line that best fits the sales data. By following the line forward in time, you can estimate future sales, if you can safely assume that growth will remain linear.

Exponential regression produces an exponential curve that best fits a set of data that you suspect does not change linearly with time. Multiple regression is the analysis of more than one set of data, which often produces a more realistic projection. You can perform both linear and exponential multiple regression analyses.

For example, a series of measurements of population growth will nearly always be better represented by an exponential curve than by a line.

Linear regression The equation y = mx + b algebraically describes a straight line for a set of data with one independent variable where x is the independent variable, y is the dependent variable, m represents the slope of the line, and b represents the y-intercept. If a line represents a number of independent variables in a multiple regression analysis to an expected result, the equation of the regression line takes the form y=m1x1+m2x2+...+mnxn+b in which y is the dependent variable, x1 through xn are n independent variables, m1 through mn are the coefficients of each independent variable, and b is a constant. Non-Linear regression Unlike linear regression, which plots values along a straight line, exponential regression describes a curve by calculating the array of values needed to plot it. x x x The equation that describes an exponential regression curve is y =xb * m1 1 * m2 2 * * mn n. If you have only one independent variable, the equation is y = b * m
ME aplicatii seminar - an univ. 2010-2011 13

Studiu de caz previziunea cursului de schimb valutar leu-euro februarie 2011Extragere de date info financiar BNR

ME aplicatii-seminar - an univ.2011 MSS MAPSS 2010 - 2010-2011

14

ME aplicatii seminar - an univ. 2010-2011

15

ME aplicatii seminar - an univ. 2010-2011

16

ME aplicatii seminar - an univ. 2010-2011

17

ME aplicatii seminar - an univ. 2010-2011

18

ME aplicatii seminar - an univ. 2010-2011

19

ME aplicatii seminar - an univ. 2010-2011

20

ME aplicatii seminar - an univ. 2010-2011

21

ME aplicatii seminar - an univ. 2010-2011

22

S-ar putea să vă placă și