Documente Academic
Documente Profesional
Documente Cultură
10-11 PE sem-REGRESSION 0212101511
10-11 PE sem-REGRESSION 0212101511
(Master management an I)
Cuprins
I. II. III.
NonLinear
Linear
Dummy Variable
Interaction
PolyNomial
Square Root
Log
Reciprocal
Exponential
3
6/23/2011
Model 2 regresie multipla noua variabila: culoare: 1 ptr. alb, 2 ptr. argintiu, 3 in rest
Regression Statistics (Observations 100) ------------------------------------------------------------------------------------------------------Multiple R 0.8095 R Square 0.6552 Adjusted R Square 0.6481 Standard Error 151.2 ------------------------------------------------------------------------------------------------------ANOVA df SS MS F ------------------------------------------------------------------------------------------------------Regression 2 4216263 2108132 92.17 Residual 97 2218627 22872 Total 99 6434890 ------------------------------------------------------------------------------------------------------Coefficients Standard Error t Stat Intercept 6580 92.96 70.79 kilometri -0.0313 0.0023 -13.56 culoare -21.67 18.11 -1.20
Significance F 0.000
I2
ret ! F 0 F1kilometri F 3 I1 F 4 I 2
Regression Statistics (Observations 100) ------------------------------------------------------------------------------------------------------Multiple R 0.8355 R Square 0.6980 Adjusted R Square 0.6886 Standard Error 142.3 ------------------------------------------------------------------------------------------------------ANOVA df SS MS F ------------------------------------------------------------------------------------------------------Regression 3 4491749 1497250 73.97 Residual 96 1943141 20241 Total 99 6434890 ------------------------------------------------------------------------------------------------------Coefficients Standard Error t Stat P value Intercept 6350 92.17 68.90 0.0000 kilometri -0.0278 0.0024 -11.72 0.0000 I(1) 45.24 34.08 1.33 0.1876 I(2) 147.7 38.18 3.87 0.0002
Significance F 0.000
Model 1 - regressing R&D budget in 2002 on net income in 2000 and firm type. The dummy variable d is set to 1 for equipment and software companies and zero for other firms.
10
11
Model 2 - assuming that equipment and software firms have more R&D investment than do telecommunications and electronics companies. There may or may not be correlation (dependence) between the dummy variable (firm types) and regressors (net income).
12
13
The top green is regression line for equipment and software companies, while the bottom yellow line is one for telecommunication and electronics firms in Model 2. the green and yellow lines are parallel with a difference of 1,006.626, the coefficient of the dummy variable. The intercept of equipment and software firm is computed as 2140.205 = 1006.626 +1133.579.
14
Model 2 - the regression with two dummy variables: one for equipment and software firms and another d0 for telecommunication and electronics
15
Where: a is the intercept, b1 to bi are regression coefficients for i covariables x1 to xi, similar to other regression models. The logit indicates the natural logarithm of the odds of the probability p that the outcome occurs: log(p/(1p)). Odds ratios can be calculated by exponentiating the coefficients: OR=exp(bi). The relationship between the probability of the outcome and the logit is a characteristic curve.
Master PE 2010 - 2011 16
17
De remarcat c diagrama de mpr tiere a valorilor nu ofer nici un indiciu n privinta dependen elor. n asemenea cazuri, regresia liniar clasic nu ofer un model adecvat. Presupunem c valorile y (variabil binar ) sunt codificate 0/1, valoarea 1 exprimnd n general apari ia unui anumit eveniment, astfel nct ceea ce se caut este o estimare a probabilit ii de producere a respectivului eveniment n func ie de valorile variabilelor independente.
18
Modelul este:
eE F x P ( y ! 1 x) ! 1 eE F x
care reprezint raportul dintre probabilitatea de succes i probabilitatea de insucces. p Modelul se mai poate scrie: ! eE F x 1 p de unde interpretarea coeficientului (pozitiv): cre terea cantit ii logit atunci cnd x cre te cu o unitate sau cu cat creste OR cre te de e ori atunci cnd x cre te cu o unitate.
Master PE 2010 - 2011 19
ate de intrare: seria de date pentru {Xi , Yi} n care variabila Y este de tip dual (cu valori posibile numai 1 sau 0). Mod de lucru: L ! F 0 F1 X Se construieste seria de logit:
eL p( X ) ! 1 eL
Yi
pi (1 pi )1Yi
care este maxima dac i probabilitatea ca Y=1 este 1 sau dac i probabilitatea ca Y=1 este 0. Yi 1Yi Se minimizeaza produsul p (1 p )
20
Estimarea/testarea modelului
Testarea ipotezei = 0 se realizeaz prin testul Wald, corespunz tor testului t de la regresia liniar , statistica testului fiind
F2 G ! var(F 2 )
2
care este repartizat 2 cu un singur grad de libertate. Intervalul de ncredere pentru este, potrivit rezultatelor de la analiza ecua iei de regresie
unde beta este estima ia lui (din ecua ia de regresie estimat ) iar SE(beta) este abaterea standard a reparti iei de sondaj a lui . Se observ c , pentru o observa ie, dac p > 0,5, atunci este mai probabil ca observa ia s apar in grupului caracterizat de y=1. Aceast condi ie este echivalent cu OR > 1, adic logit > 0.
F z1E / 2 SE ( F )
;e
F z1 E / 2 SE ( F )
21
Estimarea/testarea modelului
Testarea semnifica iei coeficien ilor se face prin testul Wald sau prin testul raportului de verosimilitate (LR, likelihood-ratio). Testul Wald este prezentat la modelul logistic cu un singur factor. Testul LR se bazeaz pe statistica ob inut ca raport ntre maximul func iei de verosimilitate sub ipoteza nul (H0) i maximul func iei de verosimilitate n condi ii mai largi. Lema Neyman-Pearson arat c acesta este cel mai puternic test la un prag fixat. Pentru cazul regresiei logistice, se calculeaz raportul ntre valoarea maxim a func iei de verosimilitate pentru modelul complet (L1) i cea pentru modelul mai simplu (L0). Statistica LR este -2log(L0/L1), si este repartizat prin distributia 2. Testul LR este recomandat n cazul construirii modelului pas cu pas, verificnd dac variabila eliminat din model este semnificativ , deci dac modelul poate fi simplificat.
22
unde p este P(y =1|x1,x2,,xp). Se poate ob ine imediat i forma exponen ial echivalent . Interpretarea coeficien ilor cre terea i: cantit ii logit (logaritm din OR) atunci cnd xi cre te cu o unitate (celelalte variabile x r mnnd constante).
Master PE 2010 - 2011 23
Pentru coeficientul
ob ine:
( y ! 1 xi ! 1, x j ! 0, i { j )
Regresie logistica exemplu din statistica medicala (sursa: Regresia logistica, M. Gorunescu
variabila dependenta prezenta hipertensiunii variabile independente: subiectul fumeaza (valoare 1 pentru fumat), subiectul este obez (valoare 1 ptr. obezitate), subiectul are varsta peste 40 de ani (valoare 1 ptr. varsta)
25
Interpretare coeficienti
26
Diffusion of UK residential telephones in Modelling and forecasting the diffusion of innovation A 25-year review International Journal of Forecasting 22 (2006) 519 545
27
Bass model (1969) considered a population of m individuals who are both innovators (those with a constant propensity to purchase, p) and imitators (those whose propensity to purchase is influenced by the amount of previous purchasing, q. The probability density function for a potential adopter making an adoption at time t is: f(t)=(p+q F(t)) (1-F(t)) 1 exp( ( p q )t ) F (t ) ! The corresponding cumulative density function is p
1 exp( ) ( ( p q )t ) q
28