Sunteți pe pagina 1din 92

REGRESIE SI CORELATIE

m
Regresia ± scurt istoric al termenului
‡ Sir Francis Galton(1822-1911) ± spirit enciclopedic al perioadei
victoriene, fiind cel care a introdus termenii de regresie şi corelaţie
statistică
‡ Originea regresiei ca metodă statistică se află în studiile sale de
genetică aplicată în studiul plantelor- 1877
‡ Plantînd boabe dintr-un anumit soi de mazăre dulce a observat că
există o legătură liniară între diametrele acestor boabe şi diametrele
boabelor recoltate de la noile plante. El a numit iniţial panta acestei
drepte ³coefficient of reversion´, schimbîndu-i apoi numele în
³coefficient of regression´.
‡ Termenul de regresie provine de la descoperirile sale în domeniul
eredităţii: în general, progeniturile indivizilor geniali au abilităţi care îi
aşază mai degrabă la nivelul mediei; de asemenea, înalţimea copiilor
proveniţi din taţi foarte înalţi se apropie mai mult de înălţimea medie
decît înălţimea taţilor.

(odele
‡ Un model este o reprezentare a unui anumit
fenomen
‡ (odel matematic - o reprezentare matematică a
unui fenomen
‡ De cele mai multe ori un model descrie legăturile
existente între două sau mai multe variabile
‡ În general, sînt două clase de modele:
± (odele deterministe
± (odele probabiliste

?
‡ (odele deterministe ‡ (odele probabiliste
± Exprimă o relaţie ± Componenta deterministă
exactă între variabile ± Componenta aleatoare
± Teoretic, eroarea de ± Eroarea de previziune
previziune este nulă este nenulă
± Componenta aleatoare
± Exemplu: poate fi datorată factorilor
Principiul al doilea al obiectivi, ce nu sînt
mecanicii incluşi în model
newtoniene: ± Exemplu: Volumul
F = m.a vînzărilor=10 * Cheltuielile
cu publicitatea +
Componenta aleatoare
ã
Tipuri de modele probabiliste

Probabilistic
(odele
Probabilistic
Models
probabiliste
Models

(odele de
Regression
Regression (odele de
Correlation
Correlation Alte
Other
Other
regresie
Models
Models corelatie
Models
Models Models
Models
modele

±
Regresia ± metodă de modelare a legăturilor dintre variabile

‡ În general, orice fenomen este rezultatul acţiunii


unuia sau mai multor factori
‡ Exprimarea matematică:
  m    `   §

Variabila Variabile Variabila


dependentă independente reziduală
(variabila (variabile
endogenă) exogene/explicative)

:
Exemplu: Legea lui Keynes privind legătura dintre
venit şi consum
‡ Suma cheltuită pentru consum depinde de:
± mărimea venitului pe de o parte
± alte obiective în funcţie de circumstanţe (de exemplu
investiţiile)
± alte nevoi subiective
‡ ÄO persoană este dispusă de regulă şi în medie să îşi crească
consumul pe măsura creşterii venitului dar nu în aceeaşi
măsură´ j
]Õ Õm
j

‡ (odelul de regresie: C=M+ V+§ , unde 0< <1 . ï


Ipotezele modelului de regresie
(Ipotezele Gauss-(arkov)

‡ 1. Normalitatea
± Valorile Y sînt normal distribuite pentru orice X
± Erorile sînt normal distribuite cu medie zero E(İi)=0
Ëi
‡ 2. Homoscedasticitatea (dispersie constantă)
‡ 3. Necorelarea erorilor

 İi İÎ
 M E( k)=0

(i<>k)
‡ 4. Liniaritatea
‡ 5. Variabilele sînt măsurate fără eroare
± (caracter nestochastic) i
Forma funcţională
‡ Ipoteza de linearitate nu este atât de restrictivă pe cât
pare. Aceasta se referă la felul în care parametrii intră în
ecuaţie, nu neapărat la relaţia între variabilele x şi y.
‡ În general modele pot fi linearizate.
‡ y=a+bx
‡ y=a+bz, z=ex
‡ y=a+br, r=1/x
‡ y=a+bq, q=ln(x)
y= M xȕ ln(y)=M+ln(x)
‡ Forma generală: f(yi)= M+g(xi)+i
m
‡ Contra exemplu: å M nu poate fi transformat
în model liniar. 

(odele ce pot fi linearizate




 m  þ
   š   
 þ




  þ




  O þ 

—                
Î

—

— 

m]
‡ Ipoteza că media erorilor este zero: E(i)=0 Ëi, este
naturală atâta timp cât  este văzută ca suma efectelor
individuale, cu semne diferite. Dacă media erorilor este
diferită de zero, ea poate fi considerată ca o parte
sistematică a regresiei:
E()= M + x +  = (M+) + x + (-)
media erorilor fiind acum nulă.
‡ Ipoteza de homoscedasticitate: Var(i)=2
constantă Ëi
‡ Se consideră un model care descrie consumul unor
gospodării în funcţie de venitul acestora. În acest caz,
consumul gospodăriilor mari pot varia mult mai mult faţă
de consumul gospodăriilor cu venituri mici. Deci ipoteza de
homoscedasticitate nu este respectată.
mm
Exemplu de încălcare a ipotezei de
homoscedasticitate
á  

 ]]

]]]

]]
 

]]

]]

]]

]
]] ]] ]] ]] ]] ]] ]] ]] ]]]


m
‡ Necorelarea erorilor: E(ij)=0 Ëij
Această ipoteză nu implică faptul că yi şi yj sunt
necorelate, ci faptul că deviaţiile observaţiilor de la
valorile lor aşteptate sunt necorelate.
‡ Ipoteza de normalitate a erorilor i N(0,2)
Este o ipoteză de lucru, tehnică, ce permite obţinerea
unor estimatori ³buni´.
‡ Dacă ipotezele precedente sînt respectate, vom
obţine estimatori B.L.U.E. (Best Linear
Unbiased Estimators)

m?
§ 
   

    


·
Î
Î


m
Ö    
    

Ö       
 
    

       
 
    
  


Î
Î
Î    
m
Clasificarea modelelor de regresie
1 Variabilă Modele 2+ Variabile
expli ativă de regresie expli ative

Simple Multiple

Non- Non-
Li ear Linear
Linear Linear

m:
Tipuri de modele de regresie
|     |    

|         


(odelul de regresie liniară simplă

mi
Exemplu
practic
‡ Există o legătură între
suprafaţa unor apartamente
din zona centrală şi preţul de
închiriere a acestora?
‡ Selectăm aleator 25 de astfel
de apartamente la care
urmărim valorile celor două
variabile X ± suprafaţa(m2) şi
Y ± chiria lunară(RON).

Regresia folosind EXCEL


Accesăm meniul TOOLS>DATA ANALYSIS>REGRESSION

]
Regresia folosind EXCEL
Selectăm valorile variabilelor

m

Corelograma(Scatter plot)
‡ Graficul punctelor de coordonate (Xi,Yi), i=1,n.
 ]]

]]]

  

 ]]

]]]

]]

]
] ] ]]  ] ]]  ]
w 
?
(  
  
 Pe baza
baza corelogramei este rezonabil să presupunem că media
variabilei Y depinde de X printr-
printr-o relaţie liniară:

 Atunci modelul de regresie liniară simplă este dat de relaţia


următoare:
 à 
  
 à à


à   mÎ à  §à   à

 à à

 à à
 à   
     à
   
à à
 à 
(           


  
    ] 
    

 
 
 
  



  

 
 
 
  



      

 
  


    

 m 
 !   !  
  
!
   !
 
    
     
"    



 
   
 

" 

#  
 $   
"  

  
! 


   
"     


   :
Distribuţia condiţionată a lui Y
Dreapta de regresie
Y

X

(  
  

   
· ·à   ]  m  à 
 
à
  

à ß 

   ]  m à
·
$ 


 
   
(  
  




    
 ] m 
f
à ß Ö
    
"
 

Îà ß Ö
  Î 
"
 

 ß $ 

   "
]
]

 ß $ 
   m
m

Estimarea parametrilor modelului de regresie
‡ (etoda celor mai mici pătrate((.C.(.(.P.) ±Least
Squares(L.S.)
‡ Presupunem că avem n perechi de observaţii (x1, y1), (x2,
y2), «, (xn, yn).
‡ Ideea este să minimizăm distanţa dintre valorile estimate
şi valorile reale `  `

;
      § 


‡ Ne reamintim că     deci
 ] m 

?]
§   
`
 

  §   
§  §  §  §






· ü Ë Ë 
Ë

§
§ 
§  § 
Ë
·à Ë Ë
]   à

Î
?m
‡ Condiţiile de minim:

‡ Simplificînd, obţinem sistemul de ecuaţii


normale

?
Estimatorii modelului de regresie

cov( X , Y )
b1  2
sx
b 0  y ® b1 x

??
Notaţii
‡ Valoarea estimată:
‡ Valoarea reziduală(reziduul):


Estimatorul dispersiei modelului

‡ Dacă notăm suma pătratelor erorilor de


regresie

atunci un estimator al varianţei variabilei


reziduale este


Proprietăţile estimatorilor modelului de regresie
 ]  m   
    
 

 ]  m

 M  
] ]  M  
m m

% 
  
 
   

 m 

& ]      
`  


& m

`
  
 m
   
 
  

" 
# 

% 
 ]  m 
 # 
"  

?:
       
  

·  

óY 

 
 



ó 
 
ó 
 
ó 
 
Sampling Distribution
ó 
 
S^1 
  
 
!
 
^
 1
?
Eroarea standard a estimatorilor
`




# l     #
l    m
    

`®


 
 
 

l
   
l 
% m  m
 
! `® 
m 

l  


   `    l   
 m 

% ]   ]
  
! `® `  

Erorile standard vor fi folosite la testarea semnificaţiei parametrilor


modelului de regresie ?i
Testul t pentru panta dreptei de regresie(slope)

] m  m
]

 ]

 Y m  m

 ® ]  ® ]  ® ]  ® ]
 m m  m m  m m
 m m

 m  l  ` ` `
  ` ®     ®  
 `®
  m  m  m
`

 ®  

 m

‡ Valoarea critică:  M   '` ® 

] m ]     


‡ Caz particular:
Y  m  ]    


?

Exemple de acceptare a ipotezei


]  m  ]     



ã]
Exemple de respingere a ipotezei
]  m ]     



ãm
Testul t pentru termenul liber(intercept)

] ]  ]
]
 ]

 Y ]  ]

  ]   ]
] ] ] ]

M ]   m 

  


 `  
  ]   ]
] ] ] ]
`
 m 
  
   `    

 `   
 `    m
 m
    `   `
`  
 m


 m
   

‡Valoarea critică: M   '` ®  ã
Intervale de încredere pentru parametrii
modelului
‡ Pentru termenul liber(intercept)
     ]  M  ` M ] 
] M  `   M ] ]

  m 
 m 

] M  `     

 ]  ]  M  `  
  


`    `  
‡ Pentru panta dreptei de regresie(slope)
     m  M  `   M m 
m M   `   M m m

   
  

m M   `    

 m  m  M  `    


    
`
 
unde este estimatorul dispersiei modelului.
l 
 m

` ® 
ã?
Teorema Gauss-(arkov
‡ Estimatorii obţinuţi prin metoda celor mai mici pătrate sînt
B.L.U.E. i.e. orice alt estimator liniar are o dispersie mai
mică decît cei obţinuţi prin (C((P.
( 
) * 
    " 
 
 
"     
` ` ` `

 å  å     å      å    å     `

m
 m
`
 m
`
 m  m
` M å  


 m
   
  m
   

 m
     m

` ` ` `
+  «
 å
 m
  ]   
 m
 m
 m
    §    


 m
` `
, 
 «
 m     
   ]    m
 m  m
` `
- #  «
 §
 m
   m  
   & «
  
 
 m



`
+     M    M    & «
  
 M    


 m
` ` `
 
M 

 M     


M 
  
 


M 

 m ...M ãã
 m  m  m
Exemplu-chiria ca funcţie de suprafaţă

‡ Panta dreptei de regresie este pozitivă, deci există o


legătură directă între chirie şi suprafaţa apartamentelor.
‡ În plus, dacă chiria creşte cu o unitate(1 m2) ,chiria va
creşte cu 10.640 lei.
‡ Doar panta dreptei de regresie este semnifcativ diferită de
zero.
‡ P-value ± probabilitatea ipotezei ca parametrul estimat să
fie egal cu zero; dacă P-value este mai mic decît pragul de
semnificaţie atunci respingem această ipoteză. ã±
Analiza varianţei pentru modelul de regresie
‡ Dacă între X şi Y nu există nici o legătură, atunci putem
face predicţii privind valoarea medie a lui Y pentru orice
valoare a lui X
‡ Dacă există o legătură între X şi Y, în ce măsură
cunoaşterea valorilor lui X poate explica abaterea
variabilei dependente de la media sa?
‡ Abaterea totala = abaterea explicata + Abaterea
reziduala
! !
   Õ Õ   Õ   Õ
ã:
 
    
 f
  Rà  à 
5
  Rà  

f 5

 Rà   5


Î
Îà
ANOVA pentru regresie
! !
  ®     ®    ®  
  

SST = SSR + SSE


 ß otal Sum of Squares
5
Măsoară variaţia valorilor observate à în jurul mediei 


ß egression Sum of Squares
Măsoară variaţia expli ată de modelul de regresie

 ß rror Sum of Squares


Măsoară variaţia ce poate fi atribuită altor factori, diferiţi
ãi
de variabila explicativă
ã

Coeficientul de determinaţie R2
‡ Este o măsură a proporţiei varianţei explicate de
model ` `


 å  å 

 
 

  m
m  m
´]m
  å  å





å  å 

‡ R2 este afectat de creşterea numărului de


parametri; de aceea pentru modele cu multi
parametri se calculează R2 ajustat, care are
aceeaşi interpretare. ` ®m  ` ®m 
÷  m® m® m®
 
 m
` ® ®m  ` ® ®m 
±]
Exemplu-chiria ca funcţie de suprafaţă

‡(odelul explică 72.23% din variaţia chiriei pentru


apartamentele din zona centrală
`
Standard Error :  

  m

`
±m
Observaţii
‡ R2 este adesea folosit pentru a alege cel mai bun
model din punctul de vedere al varianţei
explicate.

‡ Comparaţiile de acest fel trebuie făcute între


modele de aceeaşi natură.

±
Foarte important!!
‡ Pentru modele de regresie fără termen liber, de tipul
å  § R 2 nu mai are semnificaţia de
proporţie a varianţei explicate.
‡ Exemplu: considerăm două astfel de modele
åm m m  §m
    å åm  M   m  M 
å    §

‡ Deşi ar părea că modelul al doilea este mai performant,


nu sînt argumente pentru a susţine această ipoteză ±?
Ú   

  
   
   


·
2 ß 1,  ß +1 ·
2 ß 1,  ß -1
^ß + Î
à 0 1 à
^ß + Î
à 0 1 à


2 ß .8, ß +0.9
· ·
2 ß 0,  ß 0

^ß + Î
 ^ß + Î

à 0 1 à à 0 1 à


Tabelul ANOVA
w   w  w     
 
 w 
 ` Õ ww ( 
   ü      Õ

Õ  Õ Õ
ü  ® ( 
 `

`

Õ ww Õ
   ü   ®   ü  Õ  Õ  Õ
ü ü ®
  Õ ww Õ
 Å  à Õ Õ

 à
Õ ` ®
Õ



m / k-numărul de parametrii ai
Testul
M m`  modelului

` 

este folosit la verificarea validităţii modelului. Un model este valid


dacă proporţia varianţei explicate prin model este semnificativă.
Ipoteza nulă pentru testul F in cazul acesta este cea de model ±±

nevalid.
ANOVA
w   

6  
  


 
w  
  w  
w   
!"  

#$
    
 
%   & & ' ' 
  
' ' '& '
 
 ''&

±:
Predicţia folosind modelul de regresie
‡ 1. Tipuri de predicţii
± Estimări punctuale
± Estimări pe intervale de încredere

‡ 2. Care e obiectul predicţiei?


± (edia populaţiei E(Y) pentru o valoare particulară a lui
X
± Valoarea individuală (Yi) pentru o valoare particulară a
lui X

±ï
Ce prezicem
·
·ndi idul ^á 1X
^á +
( n ·, ER· · i=

ER· = á + á 1X

Pr di tion, ·
X
XP
±i
Interval de încredere pentru media lui Y

!    !      !  M !
M  `    `  



 ;   



 


!  !  `
  ! 
`  `
 ;  
 


Factori care afectează lungimea intervalului de încredere


‡ 1. Nivelul de încredere (1 - M)
± Creşterea nivelului de încredere duce la creşterea
intervalului de încredere
‡ 2. Dispersia datelor (ı)
± Creşterea dispersiei duce la creşterea intervalului de
încredere
‡ 3. Volumul eşantionului
± Creşterea volumului eşantionului duce la
micşorarea intervalului de încredere
‡ 4. Distanţa lui Xp faţă de mediaX
± Creşterea acestei distante duce la creşterea
:]
intervalului de încredere
Distanţa lui Xp faţă de mediaX

i e
le 1 Dis ersie
 wam mai mare
decît la Î1
· wam le 2
i e


1  2
:m
Exemplu
‡Un analist de marketing stabileşte că volumul vînzărilor
depinde liniar de cheltuielile cu reclama. Estimează un model
de regresie şi obţine ȕ0 = -.1, ȕ1 = .7 & s = .60553.
‡Cheltuieli cu reclama $ Vînzări(bucăţi)
1 1
2 1
3 2
4 2
5 4
‡Cît vor fi vînzările medii dacă se cheltuiesc 4 $ pentru
reclamă?
alfa=0.05 :
Soluţie
!    !      !  M  !
M  `   ` 

!    ; ;  


Ö    à 
  Î

 ;

 !   
  




 ;
  ;

        ;
  ;

     


:?
Interval de predicţie pentru valori particulare
1  M 0    1    1  M 0    1
` ; ` ;

;   


  1  1   1 
; ` `
`
 ;  




  
Y
Y we're trying to
predict ^

i
^Y i=^á ]
 pected
Rean) Y

RY) = á ] + á

rediction, ^
Y


:
Hyperbolic Interval Bands

^á 
^
^· ß á 0+ 1

5
 ::
Predicţia pentru modelul particular de regresie dintre chirie şi suprafaţă
Ú  
  
Valoarea suprafeţei
% pentru un apartament
  
Ú    Chiria prezisă de model pentru
un apartament cu suprafaţa de
(  +   100 m2
w w 

    
Interval de încredere pentru
    
w    chiria medie a unui apartament
ww 
   cu suprafaţa de 100 m2
w        !""
w   "!" 
# $%$& ' !!
Interval de încredere pentru
&
' 
() chiria unui apartament cu
( ) & * ! " suprafaţa de 100 m2
Ú  
 
 
Ú  

  ! 
m ;O  
&
  * )
( ) & * " !"     `
` 
"
   
 

"
   


#$ $#
!$ ;  
 m

Verificarea ipotezelor privind variabila
reziduala

A) Variabila eroare este normal distribuita


Folosim valorile variabilei reziduale
standardizate

:i
6 


Observation Predicted Chirie(RON) Residuals Standard Residuals  § m   `j


         
         
m   
         
          
 


  
 
  
  
  
    `    
        
         
        `




 
  

  
 
   
 
  

 m




 
  
  
  
  
   

          `
           
         
      
        
Standardized residual i =
           Residual i / Standard deviation
         
         
        
         :

        


ï]
Normal Probability Plot

†  


 ]]

]]]
 †

 ]]

]]]

]]

]
] ] ] ] ] ]]
     
ïm
ï
Variabilele reziduale sînt necorelate?
1 
.6 4 .623
.623 .712
 r l
r  i r  şi 1
.712 .
. .42 2.5
.42 .322
.322 1.37 2.
1.37 .3
1.5
.3 .24
.24 .24 1.
.24 .21
.21 .532 .5
.532 .35
.
.35 .73
3 2 1  1 2 3
.73 .165 .5
.165 .12
.12 2.13 1.
2.13 .62
1.5
.62 1.47
1.47 .6 2.
.6 .121
.121 1.2 2.5
1.2 1.13
3.
1.13 2.3
2.3 1.55

ï?
V  V 
 
 VVV V 
  

  
   
  


  

   
 
   
  
   
  
    

   

   
   
     
   


  
 
  
  
     
   
   ïã
‡ Variabila reziduala are varianta constanta:
Homoscedasticitate/Heteroscedasticitate
± Daca este incalcata conditia variantei constante
suntem in cazul heteroscedasticitatii.
+
^y
++
Residual
+
+ + + ++
+
+ + + ++ + +
+ + + +
+ + + ++ +
+ + + + ^y
+ + ++ +
+ + +
+ + ++
+ + ++

Imprastierea creste odata cu y


ï±
‡ Daca varianta este constanta avem
homoscedasticitate

+
^y
++
Residual
+ +
+ + + ++
+
+ + + +
+ ++ + +
+ +
+ + + + ++ +
+ + + ^y +++
+ + + ++ +
+ + + + ++
+
+ +++++
+

ï:
Independenta erorilor in timp
Tipuri de variabila reziduala care indica exixtenta autocorelatiei
erorilor
In timp.
Residual Residual

+
+ ++
+
+ + +
+ + +
0 + 0 + +
+ Time Time
+ + + + + +
+ + + +
+ +
+

ïï
REGRESIE (ULTIPLA

ïi
Regresie multipla
Coeficienti de
regresie
Variabila eroare

y = 0 + 1x1+ 2x2 + «+ kxk + 

Variabila Variabile Independente


Dependenta

Examplu Stabilirea locatiei unui hotel


± La Quinta (otor Inns doreste construirea unui nou
hotel.
± (anagementul doreste sa stabileasca locatia
probabil cea mai profitabila.
± Profitabilitatea unei locatii depinde de factori cum
sunt:
‡ Competition
‡ (arket awareness
‡ Demand generators
‡ Demographics
‡ Physical quality i]
Profitabilit (argin
y

(arket
Competition Customers Community Physical
awareness

Rooms Nearest Office College Income Disttwn


space enrollment
Number of Distance to (edian Distance to
hotels/motels the nearest household downtown.
rooms within La Quinta inn. income.
3 miles from
the site.
im
± Se folosesc date pentru un esantion de 100
hoteluri care apartin La Quinta, si se foloseste
urmatorul model :
(argin =  Rooms 
Nearest  Office   College
+ 5Income + 6Disttwn + §

§ §  EE § E 

EE § E §


m  ?? m    ? mm
 ?? m m : m  ? 
?   m   ? m
?m ?  m ? m ?: 
   : ? :  m ? 
:  ?  m :? m m

i
(ARGIN = 72.455 - 0.008ROO(S -1.646NEAREST
+ 0.02OFFICE +0.212COLLEGE
w    - 0.413INCO(E + 0.225DISTTWN
6  
  


 
w  
   
w !
"# $ 

%&
    
 
' $  ((!( (! (! (()(
  
( ! ((!(
$ 
 !

    


  

   
* +  !( !( ) ! !!!
w )  )! )! ) )(
%w ) (!( )( !( ) )(!
,,*-  (  )! ( (!
-../ !( ((! ! ! )(! 
*%- )( ( )( (! ) )(
0*w1% ! !   ) !(!
i?
‡ Utilizarea modelului

± Predictiepentru un hotel cu urmatoarele


caracteristici:
‡ 3815 rooms within 3 miles,
‡ Closet competitor 3.4 miles away,
‡ 476,000 sq-ft of office space,
‡ 24,500 college students,
‡ $39,000 median household income,
‡ 3.6 miles distance to downtown center.
(ARGIN = 72.455 - 0.008(3815) -1.646(3.4) + 0.02(476)
+0.212(24.5) - 0.413(39) + 0.225(3.6) = 37.1%

Testul Durbin - Watson


i 2
( ri  ri 1 ) 2
d n
2

i 1
ri

The range of d is 0  d  4


Autocorelatie de ordinul I pozitiva
Autocorelatie de ordinul I pozitiva
+ Residuals
+
+
+
0
Time
+

+ +
+

Autocorelatie de ordinul I negativa


Autocorelatie de ordinul I negativa
Residuals
+ +
+
0
+ + + Time
+
i:
‡ TEST UNILATERAL
± Daca d<dL exista autocorelatie de ordinul I pozitiva
± If d>dU nu exista autocorelatie de ordinul I pozitiva
± Daca d este intre dL si dU indecizie.

± Daca d>4-dL,exista autocorelatie de ordinul I negativa


± Daca d<4-dU, nu exista autocorelatie de ordinul I
negativa
± Daca d este intre 4-dU and 4-dL indecizie

Auto injecizie Injecizie Auto
Injepen Injepen
corelatie jenta jenta corelatie

0 j j 2 4-j 4-j 4

ii
Variabile calitative
‡ In many real-life situations one or more
independent variables are qualitative.
‡ Including qualitative variables in a regression
analysis model is done via indicator
variables.
‡ An indicator variable (I) can assume one out
of two values,
1 if a ³zero´
degree or ³one´.
earned is inbelow
1 if the temperature was Finance
50o
11 ififadata
firstwere
condition
collected
out of
before
two is1980
met
I= 00 ififthe
a degree earned
temperature is
was not
50 oinorFinance
more
00 ififadata
second
werecondition
collectedout
after
of1980
two is met
i

Variabile calitative
‡ Consideram ca pretul este determinat si de
culoarea masinii.
‡ Consideram trei culori :
± White I1 = 1 if the color is white
0 if the color is not white
± Silver
1 if the color is silver
± Other colors I2 =
0 if the color is not silver


]
± Folosim modelul
y = 0 + 1(Odometer) + 2I1 + 3I2 + 

 i  t - -
±      White car
± ±  
± ±   Other color
±±   
± ±  
± ±    Silver color


m
w   

6  
  


 
w  
  w

w  !"!
#$ % !

&'
    
 
( %  !" !" "" ")
  
 !!! !
% 
 

    


  

   
* +  !  !) !"" "
%,  )"""  )!!" !) )" )"
*)!   !"! !"! )!! !!!
*) !"" ! " ! "!! "