Sunteți pe pagina 1din 66

Analiza predictiva

Analiza predictiva 
•  Presupune realizarea de estimari asupra evolutiei 
viitoare a fenomenelor de marketing, utilizand ca 
metode de lucru: 
Analiza seriilor dinamice (univariata) 

Regresia (bivariata sau multivariata) 
liniara; 
logistica; 
hiperbolica; 

Modelarea.
Criterii de clasificare ale analizei 
predictive 
•  Gradul de cuprindere la care se face previziunea: 
–  nivel de produs (marca); 
–  nivel de grup de produse (linie sau gama); 
–  nivel de unitate economica; 
–  nivel de ramura de activitate; 
–  nivelul economiei nationale (previzune macro­economica); 
•  Aria geografica inclusa in procesul de previziune: 
–  nivel local; 
–  nivel regional; 
–  nivel national; 
–  nivel international.
Criterii de clasificare ale analizei 
predictive 
•  Orizondul de previziune poate fi: 
–  scurt (o perioada/1 an); 
–  mediu (pana la 5 perioade/ani); 
–  lung (peste 5 perioade/ani); 

•  Alte criterii: 
–  Precizia rezultatelor (previziuni cantitative si calitative); 
–  Tipul de date utilizate; 
–  Considerarea influentelor unor factori perturbatori (metode 
endogene si exogene);
Lanturile Markov 
•  Metoda lanturilor Markov reprezinta o modalitate de 
previziune cu utilitate limitata, ce nu presupune nici 
existenta unei serii cronologice, nici existenta unei 
asocieri. 
•  Proprietatea Markov: starea viitoare depinde doar de 
starea prezenta si de o matrice a probabilitatilor de 
schimbare a starii (starea viitoare nu depinde de stari 
trecute) – viitorul este conditional independent de 
trecut. 
•  Probabilitatea unei anumite stari de a depinde de starile 
anterioare: 
P ( s ik  | s i 1 , s i 2 , K, s ik -1 ) = P ( s ik  | s ik -1 ) 
Lanturile Markov 

•  Probabilitatea unei stări poate fi calculată cu 
ajutorul  următoarei formule: 
P(s i1, s i2 , K, s ik
=
) P(s ik | s i1, s i2 , K, s ik -1 )P(s , s i2 ,
i1
K, s ik -1 )

= P(s ik
| s ik -1 )P(s i1
, s i2 , K, s ik
=K
-1 )

= P(s ik
| s ik -1 )P(s ik
K
-1 | s ik - 2 ) P(s i2 | s i1 )P(s i1
)

•  Pentru a defini lanţul Markov trebuie specificate : 
–  probabilitatea de tranziţie:  a ij = P(s i
| sj )

–  probabilitatea iniţială: 
p i  = P ( s i ) 
Lanturile Markov 
•  Matricea probabilitatilor de tranzitie este alcatuita 
pe baza probabilitatile de transformare 
(schimbare a starii) a fiecarei variabile: 
–  Exemplu: utilizarea clasica in marketing – evolutia 
cotei de piata (matricea probabilitatii de tranzitie este 
alcatuita pe baza unui indicator de loialitate / tranzitie 
a respondentilor pentru o anumita marca). 
–  Pe piaţa şampoanelor dermato­cosmetice există trei 
produse (2006): Selegel, T­gel şi Nizoral, cu cotele de 
piata: 
Selegel Ducray  Nizoral 
25%  35%  40% 
Lanturile Markov 

•  Indicele de loialitate.  Selegel  Ducray  Nizoral 


0,85  0,75  0,8 

•  Probabilitatile de tranzitie (cumparatori care isi 
vor schimba samponul in luna urmatoare): 
Reorietări 
Produsul părăsit
Selegel  Ducray  Nizoral 
Selegel  x  0.10  0.05 
Ducray  0.15  x  0.10 
Nizoral  0.10  0.10  x 
Lanturile Markov 

•  Matricea probabilitatilor de tranzitie. 
0,85  0.10  0.05 
0.15  0,75  0.10 
0.10  0.10  0,8 

Selegel = 25 ´ 0,85 + 35 ´ 0,10 + 40 * 0,05 = 30,5


•  Cotele de piata la t 1 : 

Selegel Ducray  Nizoral 


30,5%  32,75%  36,75% 
Analiza seriilor dinamice 

•  Cunoscuta in literatura de specialitate si sub denumirea 
de analiza seriilor de timp. 
•  Presupun utilizarea unor date istorice (inregistrari ale 
evolutiei unui fenomen in timp). 
•  Reprezinta cea mai facila metoda (logistic si matematic) 
de realizare a previziunilor. 
•  Previziunea naiva: in perioada urmatoare variabila 
investigata isi va pastra nivelul actual:

Pt +1 =Y t
Metoda modificarii procentuale 

•  Metoda modificării procentuale (MMP) urmăreşte să 
evalueze schimbarea procentuală a variabilei între 
perioade succesive de timp. 

Pt +1 = t ´ MMP + Y t 0

•  unde: MMP t  reprezinta media modificării procentuale 
pentru primele t perioade, iar Y 0  este valoarea 
observată din prima perioada a variabilei previzionate. 
Metoda modificarii procentuale 

•  Exemplu: Presupunand un volum al desfacerilor 
(vanzari) pentru berea Tuborg in primele 6 luni ale 
anului conform tabelului de mai jos, se vor estima 
vanzarile din luna iulie. 

Luna Vanzari (hl) 
Ianuarie  12000 
Februarie  10000 
Martie  11000 
Aprilie  13000 
Mai  14000 
Iunie  15000 
Metoda modificarii procentuale 

•  Exemplu: Presupunand un volum al desfacerilor 
(vanzari) pentru berea Tuborg in primele 6 luni ale anului 
conform tabelului de mai jos, se vor estima vanzarile din 
luna iulie. 
-Y
Yt 0
MMPt =
n -1

15000- 12000
MMP6 = = 600
6 -1

Yiulie = 12000 +(7 - 1)


´ 600 = 15600
Metoda modificarii procentuale 
mobile 
•  Metoda modificării procentuale mobile (MMPM) are un 
grad mai mare de precizie decat MMP si este utilizata in 
cazul in care se observa tendinte (trend­uri) in date. 
•  MMPM presupune calculul prealabil al indicilor care 
exprimă modificarea procentuală a variabilei de la o 
perioadă la alta. 
•  De asemenea, presupune calculul prealabil al mediilor 
mobile ale schimbarilor procentuale (MPM), dupa 
formula: 
Yt -Y- Yt -1 -Y- Y2 -Y
t 1
+ t 2
+ ... + 1

Yt -1 Yt - 2 Y1
MPM t =
n
Metoda modificarii procentuale 
mobile 

•  Metoda modificării procentuale mobile (MMPM) 
presupune utilizarea formulei de previziune: 
Pn +1 =(1 + MMP n
)
·Yn

•  Pentru perioada m care urmeaza celor n 
perioade observate (date istorice), formula se 
transforma dupa: 

Pn + m = MMP ·Y n n
·m +Y n
Metoda mediilor mobile 
•  Metoda mediilor mobile (MM) este utilizata atunci cand se 
doreste acordarea unei importante (greutati) superioare 
observatiilor recente dintr­un set de date istorice, fata de 
cele de la inceputul setului. 
•  Previziunile se fac asupra unui set de valori ajustate 
(teoretice), care inlocuiesc termenii initiali ai seriei 
cronologice, determinate cu ajutorul formului: 
L -1

2
1
ˆ  =
Yt
L
å t -L
Yt

i =
2

•  presupunea alegerea unui interval de referinta L (L < n), la 
nivelul caruia se vor raporta calculele pentru determinarea 
mediilor mobile. Se recomanda ca L < 8.
Metoda mediilor mobile 
•  Pentru o serie de aplicatii, se pot utiliza si date 
“viitoare”, metoda fiind centrata pe o anumita valoare. In 
acest fel, metoda nu prevede evolutia ulterioara a 
fenomenului, ci valorile “asteptate”, conform trend­urilor 
presupuse de valoarile observate. 
•  Metoda se bazeaza pe propritatea mediei aritmetice de 
compensare a erorilor, diminuand astfel influenta 
oscilatiilor periodice. Sirul obtinut reprezinta trendul si 
reflecta tendinta comuna, generala a seriei cronologice.
Metoda mediilor mobile 
•  Exemplu: analiza vanzarilor (milioane EURO) lunare ale 
URBB Bucuresti. 

Perioada 1  2  3  4  5  6  7  8  9  10  11  12 


Valori observate  5  6  8  7  6,5  7,2  6,8  6,3  6  6,6  7,4  7,8 
Valori previzionate (L=5)  ­  ­  6,5  6,9  7,1  6,8  6,6  6,6  6,6  6,8  ­  ­ 

5
1 1
•  Metoda de calcul:  P3 = å Yt = (5 + 6 + 8 + 7 + 6,5)= 6,5
5 i =1 5

6
1 1
P4 = å
5 i=2
Yt =
5
(6 + 8 + 7 + 6,5 + 7,2)= 6,9
7
1 1
P5 = å
5 i=3
Yt =
5
(8 + 7 + 6,5 + 7,2 + 6,8)= 7,1
Metoda mediilor mobile 
•  Previziunea se face asupra setului de date 
ajustat, utilizand metode de analiza a seriilor 
dinamice la alegere (MMP, MMPM, etc.). 
•  Media mobile a schimbarilor procentuale (MPM) 
pentru setul de valori ajustate dupa metoda 
mediilor mobile este: 
Yt -Y- Yt -1 -Y- Y2 -Y
t 1
+ t 2
+ ... + 1

Yt -1 Yt - 2 Y1
MPMt = = 0.06125
n

P13 = MMP ˆ
·Y10 ·3 + Yˆ  = 6.692
10 10
Metoda nivelarii exponentiale 
•  Metoda nivelarii exponentiale este mai precisa decat 
metodele anterioare. La randul ei, creaza posibilitatea 
ca cele mai recente observatii sa fie luate în calcul cu 
ponderi mai mari. 

Pt +1 = αY +(1 - α)P
t t

•  presupunea alegerea unui coeficient de nivelare α (0 < 
α < 1), valoarea acestuia fiind stabilita fie prin utilizarea 
mediilor mobile, fie prin incercari, urmata de evaluarea 
acuratetei seriilor de valori previzionate (suma 
patratelor valorilor reziduale). 
Metoda nivelarii exponentiale 

•  Exemplu: analiza vanzarilor (milioane EURO) lunare ale 
URBB Bucuresti. Vom analiza trei coeficienti: 
•  α = 0,5; 
•  α = 0,33;  P2 = 0,5 ´ 6 +(1 - 0,5)
´5
•  α = 0,25; 

Perioada  1  2  3  4  5  6  7  8  9  10  11  12 


Valori observate  5  6  8  7  6,5  7,2  6,8  6,3  6  6,6  7,4  7,8 

Previziune (α=0,5)  5  5,5  6,75  6,9  6,7  6,9  6,9  6,6  6,3  6,4  6,9  7,4 

Previziune (α=0,33)  5  5,33  6,22  6,48  6,49  6,73  6,75  6,6  6,4  6,47  6,78  7,12 

Previziune (α=0,25)  5  5,25  5,94  6,2  6,28  6,51  6,58  6,51  6,38  6,44  6,68  6,96 
Metoda nivelarii exponentiale 

•  Valorile asteptate pentru perioada urmatoare: 
•  7,6 milioane (α = 0,5); 
P13 = 0,5 ´ 7,8 +(1 - 0,5)
´ 7,4 = 7,6
•  7,34 milioane (α = 0,33); 

P13 = 0,33 ´ 7,8 +(1 - 0,33)


´ 7,12 = 7,34
•  7,18 milioane (α = 0,25); 

P13 = 0,25 ´ 7,8 +(1 - 0,25)


´ 6,96 = 7,18
•  Pe care o vom alege? 
Metoda nivelarii exponentiale 
•  Metoda nivelarii exponentiale duble (Metoda Brown) 
este recomandabila atunci cand seria dinamica poseda 
în configuratia sa o tendinta liniara. 
•  Necesita doar un minim de 3 valori istorice pentru a fi 
implementate (insa acuratetea ei este influentata direct 
de dimensiunea seriei istorice utilizate). 
•  presupunea utilizarea a doi vectori de nivelare dinamica 
α i  si β i  (0 < α i , β i  < 1).
Metoda nivelarii exponentiale 
•  Pentru previzionarea unei valori ulterioare k momentului 
actual (t), se utilizeaza formula: 

Pt + k = α +β P
t t k -1
•  unde: 
α
at = 2P¢ - P¢¢ βt = (P¢ - P¢¢)
t t
t t
1 -α
•  iar 
Pt ¢ = aX t  + (1 - a ) P t ¢-1 
Pt ¢ ¢ = a P t ¢ + (1 - a ) P t ¢-¢1 
Metoda nivelarii exponentiale 
•  Metoda nivelarii exponentiale cu doi parametrii (Metoda 
Holt) este mai flexibilitata decat metoda Brown, intrucat 
permite nivelarea tendintei folosind un parametru diferit 
de cel al seriei dinamice iniţiale. 
•  Necesita doar un minim de 3 valori istorice pentru a fi 
implementate (insa acuratetea ei este influentata direct 
de dimensiunea seriei istorice utilizate). 
•  presupunea utilizarea a 3 coeficient de nivelare 
dinamici α, β si γ (0 < α, β, γ < 1). 
•  Metoda este utilizata pentru a determina trend­ul 
evolutiei fenomenului, iar pe baza acestuia nivelul 
ulterior al variabilei previzionate.
Metoda nivelarii exponentiale 
•  Seriile asociate metodei Holt au forma: 
Pt =( α + βt)T + ε t t

•  unde α reprezinta o constanta subunitara asociata 
nivelului initial al seriei, β este un indice asociat trend­ 
ului seriei, iar ε t  este asociat erorilor (influentelor) 
aleatorii. 
•  T t  reprezinta trend­ul (evolutia) asociat seriei de valori 
istorice observate, calculat dupa formula:

Tt = γ(P t -1
+ ( - γ )P -
- Pt - 2 ) 1 t 1
Metoda nivelarii exponentiale 
•  Previziunea valorilor, conform metodei Holt, presupune 
utilizarea formulei: 
Pt = αYt +(1 - α)(P t -1 +T
t
)
•  In cazul in care in setul de date este inclus si un factor 
de sezonalitate, se utilizeaza metode nivelarii 
exponentiale sezoniere a lui Winters. 
•  Previziunea cu ajutorul acestei metode se bazeaza pe 
formula: 

Pt + m  = (P t  + b t m ) S t - L + m 


Metoda nivelarii exponentiale 
•  Sezonalitatea in modelul Winters este estimata cu 
ajutorul formulei: 
Yt
St =β + (1 - β )S -
t 1
Pt

Yt
•  unde Pt =α + (1 - α )(P - + T -
t 1 t 1
)
Tt -1

Tt = γ (P - P - ) + (1 - γ )T -
t t 1 t 1
Alegerea metodei de previziune 
adecvata 

•  Selectia modelului de previziune adecvat este realizata 
prin compararea valorilor reziduale (denumite si variatia 
neexplicata), dupa formula: 
n

SSE   = å(y - yˆ  ) i i


2

i 1=

•  daca metoda utilizata este perfecta, atunci SS E  = 0. 
•  Alternativ, se poata utiliza abaterea medie absoluta 
(AMA) asociata fiecarei metode de previziune:
n

å | yi - yˆ i
|
=
i 1
AMA = 
n
Alegerea metodei de previziune 
adecvata 

•  Exemplu: previziunea vanzarilor pentru a 11­a perioada: 
MMP Brown  Holt  Winters 
Anul  X i  Y i  ε i  Y i  ε i  Y i  ε i  Y i  ε i 
Ian  2  1,8  0,2  2  0  2,3  ­0,3  ­  ­ 
Feb  2,5  2,3  0,2  2,7  ­0,2  2,8  ­0,3  2,5  0 
Mar  3,2  2,8  0,4  3,3  ­0,1  3,4  ­0,2  3,1  0,1 
Apr  3,0  2,9  0,1  3,1  ­0,1  3,2  ­0,2  3,1  ­0,1 
Mai  4,0  3,8  0,2  3,8  0,2  3,8  0,2  3,7  0,3 
Iun  4,5  4,6  ­0,1  4,6  ­0,1  4,4  0,1  4,4  0,1 
Iul  5,0  5,2  ­0,2  4,8  0,2  4,8  0,2  5,0  0 
Aug  4,8  5,0  ­0,2  5,3  ­0,5  5,0  ­0,2  5,1  ­0,3 
Sep  5,3  5,5  ­0,2  5,5  ­0,2  5,1  0,2  5,2  0,1 
Oct  6,0  5,7  ­0,3  5,6  0,4  5,8  0,2  5,5  0,5 
Alegerea metodei de previziune 
adecvata 

•  Suma patratelor valorilor reziduale, respectiv abaterea 
medie absoluta: 
n

n
å | yi - yˆ i
|
SS E   = å(y - yˆ  ) i i
2
AMA =  =
i 1

=
i 1 n

MMP Brown  Holt  Winters 

SS E  0,51  0,6  0,47  0,47 

AMA  2,1  0,2  0,21  0,17 


Modele autoregresive (AR) 
•  Modelele autoregresive reprezinta o varianta univariata a 
regresiei liniare, in care valoarea curenta este estimata 
utilizand una sau mai multe valori anterioare ale seriei 
(serii cronologice). 
ˆ
•  Modelul AR:  Y = δ + α Yt -1 +α Yt - 2 + ... + α Yt -p +ε
t 1 2 p t

•  unde p reprezinta ordinul de autoregresie (nivelarea 
exponentiala reprezinta un model AR de ordin 1), δ este 
un indice asociat trend­ului seriei, iar ε t  este asociat 
erorilor (influentelor) aleatorii.
p

δ =(1 - å α i
)Y
i =1
Modele autoregresive (AR) 
•  Box & Jenkins au demonstrat ca una dintre cele mai 
eficiente modalitate de rezolvare a modelelor 
autoregresive este prin utilizarea mediilor mobile (Moving 
Averages – MA). 
•  Variantele metodei Box­Jenkins: 
–  ARMA – utilizat pentru serii stationare (serii cu proprietatea 
ca media si varianta nu se modifica semnificativ in timp – 
practic, o serie de tip Brown, in care nu exista trend si 
sezonalitate). 
–  ARIMA – utilizat pentru serii dinamice (“I” vine de la 
Integrate).
Modele autoregresive (AR) 
•  Metoda Box­Jenkins presupune trecerea prin 3 faze 
pentru determinarea modelului utilizat in previziune: 
1.  Identificarea modelului 
2.  Estimarea parametrilor modelului 
3.  Validarea modelului 
•  In general, pentru realizarea unei autoregresii eficiente, 
sunt recomandate serii cronologice lungi – unii autori 
recomanda minim 50 de observatii, alti chiar 100.
Modele autoregresive (AR) 
•  Identificarea modelului: 
–  Dinamicitatea unei serii (modelul ARMA sau ARIMA) este 
determinata utilizand un grafic de autocorelatie, care va 
prezenta sezonalitate in cazul in care graficul este continuu
Modele autoregresive (AR) 
•  Identificarea modelului: 
–  Graficul de autocorelatie reprezinta pe abcisa trecerea 
timpului, iar pe ordonata coeficientul de auto­corelatie 
corespunzator, calculat dupa formula: 
N -h
1
å
n i =1
(Y t - Y)(Y t +h - Y)
Rh = 2
σ

–  Liniile (valorile) de demarcatie pentru autocorelatie sunt 
calculate dupa formula (α corespunde probabilitatii de 
garantare a rezultatelor): 
t α
-
1
2
±
n
Modele autoregresive (AR) 
•  Identificarea modelului: 
–  Modelul ARMA (fara sezonalitate si trend): 
p q

(1 - åα L )
Y =(1 + å β L ) ε
i
i

t i
i

i =1 =
i 1

–  Modelul ARIMA (serii dinamice):
p q

(1 - å α L (1
) - L)Y =(1 + å β L ) ε
i
i d

t i
i

=
i 1 i 1 =
Modele autoregresive (AR) 
•  Identificarea modelului: 
–  estimarea parametrilor α i  si β i  ­ in intervalul [­1;1] se realizeaza 
prin aproximare (recomandabil cu un program statistic, gen 
SPSS); 
–  L i  reprezinta vectorul primilor i parametrii estimati pentru o serie 
cronologica simpla sau care include sezonalitate (operatorul de 
lag). 
•  Estimarea parametrilor modelului: 
–  parametrii p si q sunt estimati cu ajutorul graficului de 
autocorelatie (valoarea maxima a lui α (probabilitatea de 
garantare a rezultatelor) pentru care coeficientii de 
autocorelatie nu depasesc valoarea­prag). 
–  parametrii α i  sunt estimati prin aproximare, folosind metoda 
celor mai mici patrate (recomandabil cu un program statistic, gen 
SPSS);
Modele autoregresive (AR) 
•  Identificarea modelului: 
–  estimarea parametrilor α i  si β i  ­ in intervalul [­1;1] se realizeaza 
prin aproximare (recomandabil cu un program statistic, gen 
SPSS); 
–  L i  reprezinta vectorul primilor i parametrii estimati pentru o serie 
cronologica simpla sau care include sezonalitate (operatorul de 
lag). 
•  Estimarea parametrilor modelului: 
–  parametrii p si q sunt estimati cu ajutorul graficului de 
autocorelatie (valoarea maxima a lui α (probabilitatea de 
garantare a rezultatelor) pentru care coeficientii de 
autocorelatie nu depasesc valoarea­prag). 
–  parametrii α i  sunt estimati prin aproximare, folosind metoda 
celor mai mici patrate non­liniare (recomandabil cu un program 
statistic, gen SPSS).
Modele autoregresive (AR) 
•  Validarea parametrilor modelului: 
–  Se realizeaza prin testarea ipotezei nule ca valorile 
reziduale sunt independente, vectorul acestora avand o 
medie si o varianta nediferite semnificativ statistic in timp. 
In cazul in care parametrii nu sunt validati, trebuie revenit la 
pasul 1. 
–  Valoarea testul Student asociat parametrilor modelului 
este:  α i
zc =

i

•  ­Z t ≤ Z c ≤ Z t : se accepta ipoteza nula (parametrul NU 
este valid); 
•  altfel, se accepta ipoteza alternativa (parametrul este 
valid); 
Modele autoregresive (AR) 

•  Exemplu: previziunea vanzarilor pentru a 11­a perioada: 
Anul Y i (Vanzari mil. $) 
Ian  10 
Feb  12 
Mar  11 
Apr  14 
Mai  14,5 
Iun  15 
Iul  16 
Aug  18,5 
Sep  19 
Oct  20 
Modele autoregresive (AR) 

ˆ = δ + α
Yt Yt -1 +α Yt - 2 + ... + α Yt - p +ε
1 2 p t

•  Valoarea coeficientilor de grad 3, estimata de 
catre SPSS: 
–  δ = ­0,934 
–  α 1  = 0,534  α 2  = ­ 0,398  α 3  = 1,062 

•  Ecuatia de autoregresie devine astfel: 
ˆ   = -0 , 934 + 0, 534 Y - 0, 398 Y
Yt + 1, 062 Y
t -1 t-2 t -3
Modele autoregresive (AR) 

•  Pentru perioada 11 vom avea: 
ˆ  = -0,934 + 0,534 ´ 20 - 0,398 ´ 19 + 1,062 ´ 18,5 = 21,8
Y11

•  Testarea semnificatiei parametrilor: 
α 3
1, 062 
z =c
= = 3 , 218 
s α3
0 , 333 
•  pentru α=0,05 z t =1,96 => z c  > z t => ipoteza 
alternativa va fi acceptata (parametrul este valid) 
Modele autoregresive (AR) 
•  Testarea semnificatiei parametrilor: 

α2 - 0, 398  α1 - 0, 534 
  =
zc = = -1 , 005  zc = = = 1 , 684 

2
0 , 396  sα
1
0 , 317 

•  pentru α=0,05 z t =1,96 => 
­z t  (­0,96) ≤ z c (­1,005) ≤ z t (1,96) => ipoteza nula va fi 
acceptata (parametrul NU este valid) 
ˆ   = -0 , 934 + 1, 062 Y
Yt t -3

ˆ  = -0,934 + 1,062 ´ 18,5 = 18,7


Y11
Analiza autocorelatiei 

•  Testul Durbin­Watson necesita calculul parametrului d, dupa formula: 
T
ˆ  ˆ  2 
å (U t  - U t -1 ) 
d  =  t -2  T 
ˆ 
å t 
U  2 

t =1 

•  Daca d<d L  sau d>d T , atunci este acceptata ipoteza nula (d L si d T sunt 
luate din tabelele asociate testului Durbin­Watson). 
•  Testul Geary este de natura neparametrica si are ca punct de plecare 
calculul numarului schimbarilor de semn in seria valorilor reziduale δ. 
•  Daca δ min < δ < δ max  (tabelate), atunci ipoteza nula este acceptata.
Regresia 
•  Regresia reprezinta o clasa semnificativa de 
metode de previziune, in care valoarea unei 
variabile (denumita dependenta) este 
previzionata folosind valorile altor variabile 
(independente), de ale carei valori depinde. 
•  Dependenta variabilei previzionate trebuie 
demonstrata, utilizand un coeficient de corelatie 
(corelatia trebuie sa fie cel putin medie, dar se 
recomanda utilizarea corelatiilor puterice sau 
foarte puternice).
Regresia 
•  Formele regresiei: 
–  in functie de numarul de variabile utilizate: 
•  bivariata (o singura variabila independenta); 
•  multivariata (doua sau mai multe variabile 
independente); 
–  in functie de forma relatiei dintre variabile (identificata 
cu ajutorul analizei grafice): 
•  liniara; 
•  logistica; 
•  polinomiala; 
•  trigonometrica;
Regresia liniara 

•  Regresia liniara bivariata:  y = a + bx
Regresia liniara 

•  Parametrii regresiei (metoda celor mai mici 
patrate):  n n n

nå x y -(å x )(å y )
i i i i

= = =
b =
i 1 i 1 i 1

n n

nå x -(å x )
2 2
–  panta (b):  i
i

=
i 1 =
i 1

–  termenul liber (a):  a = y - bx
Metoda regresiei multiple 
•  Permite analiza relatiei liniare dintre o variabila dependenta si una 
sau mai multe variabile indepentende 
•  Obiectiv: explicarea si previziunea variatiei variabilei dependente in 
functie de covarianta ei cu variabilele independente. 

Y
ˆ  = α + βˆ  X + βˆ  X + ... + βˆ  X + ... + βˆ  X
1 1 2 2 i i n n

•  Parametrii β sunt estimati utilizand metoda celor mai mici patrate 
(un model cu n variabile va avea nevoie de n perechi de date 
“istorice” pentru scrierea unui sistem de n ecuatii). 
•  Exemplu: cererea de bunuri/servicii (dependenta) in functie de 
factori determinanti (venituri, cifra de afaceri, pret, etc.) 
Metoda regresiei multiple 

•  Metoda celor mai mici patrate pentru o regresie 
liniara de gradul 2:
n n n n

å =1
(x i1 ´y i
) å =1
2
x 2i - å =1
(x 2i å
y i ) ( x i1x i2 )
=1
β1 = i

n
i

n
i

n
i

å å
i =1
x i1
2

i =1
2
x i2 -( å i =1
x i1x i2 )
2

n n n n

å =
(x i2 y i ) x i1 - å =1
2

å =1
(x i1y i ) ( x i1x i2 ) å =1
β2 = i 1

n
i

n
i

n
i

å å
=
i 1
x i1
2

i =1
2
x i2 -( åi =1
x i1x i2 )
2

α = y -β 1
x1 -β 2
x2
Metoda regresiei multiple 
•  Estimarea semnificatiei statistice a parametrilor 
este utilizata pentru a se verifica faptul ca 
variatia variabilei dependente nu este datorata 
intamplari (evenimentelor aleatoare), ci este 
rezultatul variatiei uneia sau mai multor variabile 
independente. 
•  Realizata cu ajutorul testului Student, in care 
numarul de grade de libertate al valorii teoretice 
(tabelate) se determina cu conform: 

Nivelul de semnificatie = (1­nivelul de confidenta)/2
Metoda regresiei multiple 
•  Estimarea semnificatiei statistice a parametrilor 
este utilizata pentru a se verifica faptul ca 
variatia variabilei dependente nu este datorata 
intamplari (evenimentelor aleatoare), ci este 
rezultatul variatiei uneia sau mai multor variabile 
independente. 
•  Realizata cu ajutorul testului Student, in care 
numarul de grade de libertate al valorii teoretice 
(tabelate) se determina cu conform: 

Nivelul de semnificatie = (1­nivelul de confidenta)/2
Metoda regresiei multiple 

•  Testarea semnificatiei (reprezentativitatii) parametrilor 
de regresie: 
βi
tc =  b j  ± s bˆ ´ t T , j 


i

•  Eroarea standard a unui parametru estimat arata cu 
cat poate sa varieze acesta in jurul valorii sale ca 
urmare a erorii aleatoare. 
Metoda regresiei multiple 

•  Testul F este utilizat pentru a determina 
semnificatia reprezentativitatea) variatiei 
variabilei dependente explicata de variatia 
variabilelor independente considerate. 
•  Utilizeaza formula: 
n

ˆ - Y(n
å

i 1
( Yi ) - k - 1)

Fc = n

ˆ  - Y)
å
i 1=
( Yi
2
(k - 1)
Metoda regresiei multiple 

•  Coeficientul (raportul) de corelaţie multiplă 
R reprezinta gradul in care variabilele 
independente, per ansamblu, explica variatia 
variabilei dependente . 
•  Utilizeaza formula: n

å (yˆ - y )
2

=
R y, x
 , x 2 ,..., x k
1
= i 1

n
=
å (y
i =1
i
- y)
2
Metoda regresiei multiple 

•  Pentru a putea caracteriza proporţia variaţiei variabilei 
dependente datorată variaţiei setului de variabile 
variabile independente ale modelului se calculează 
coeficientul de determinare multiplă R 2  (pătratul 
raportului de corelaţie multiplă), care arată proporţia 
din variaţia totală a variabilei Y care este explicată de 
variabilele independente X1, X2, ...Xk. 
•  În afara coeficienţilor de corelaţie multiplă, în analiza 
corelaţiei dintre variabile se mai pot calcula şi 
coeficienţii de corelaţie parţială, ce caracterizează 
intensitatea legăturii dintre două variabile, în ipoteza că 
celelalte variabile rămân constante
Metoda regresiei multiple 
•  Exemplu: Estimarea nivelului vanzarilor de telefoane mobile 
plecand de la suprafata comerciala a magazinului si numarul de 
asistenti de vanzare. 
Vânzări  Număr  Suprafaţa 
(bucăţi) vânzători (persoane)  comercială 
22  7  98 
20  5  90 
23  8  110 
26  9  130 
30  12  140 
32  15  145 
45  22  156 
50  25  160 
52  32  164 
60  40  175 
Metoda regresiei multiple 
•  Sistemul de 3 ecuaţii simultane cu 3 necunoscute, pentru determinarea 
estimatorilor  α, β 1  şi β 2  este.

ì nα +β 1i å x 1i +β 2 å x 2i = åy i
ï
ïï
í α å x 1i +β 1 å x
2
1i +β 2 å x 1i x 2i = åx 1i
yi

ï
ï
ïî β å x 2i +β 1 å x 1i x 2i +β 2 å x
2
2i = åx 2i
yi

ì
ï 10α + 175β + 1368β = 360
ïï 1 2

í 175α1 + 4321β + 26721 β = 7816


1 2

ï 1368α1 + 2672β + 194786 β = 52754


ï 1 2

ïî
Metoda regresiei multiple 
•  Dupa rezolvarea ecuatiei vom obtine: 
–  β 1  = 0,974543752; 
–  β 2  = 0,104112437; 
–  α = 4,702902918; 

Ŷ = 4,703 +0,97X 1i + 0,104X 2i 

•  Coeficientul de corelatie multipla este:
n

å (ˆ - y)
2
yi

R y, x
1
, x 2 ,...,x k
= i 1

n
= 0,989085
å (y - y)
2

i =1
Metoda regresiei multiple 
•  Valorile reziduale: 


Y i ŷ  yi  ε = yi  ­ ŷ  (yi­ ŷ) 
22  22,92209467  22  ­0,922094675  0,850258589 
20  18,15286921  20  1,847130787  3,411892145 
23  23,49930977  23  ­0,499309769  0,249310245 
26  26,96671515  26  ­0,966715154  0,934538188 
30  31,04921181  30  ­1,04921181  1,100845422 
32  34,49973652  32  ­2,499736517  6,248682653 
50  45,79082822  50  4,209171778  17,71712706 
52  52,87302888  52  ­0,873028881  0,762179427 
60  61,77950786  60  ­1,779507855  3,166648206 
40,85910144 
Metoda regresiei multiple 
•  Validitatea valorilor previzionate: 
n

ˆ - Y(n
å ) - k - 1)
( Yi

Fc = = 
i 1

n
= 157,712551 6
å( Yˆ  - Y)(k - 1)
i =1
i
2

•  Valoarea tabelata a lui F pentru o probabilitate de garantare a 
rezultatelor de 95% si 52 de grade de libertate: 3,23 => F c  =157,71 > F t 
=3,23 => se accepta ipoteza alternative (valoarea coeficientului de 
corelatie multipla este semnificativ diferita de zero), deci regresia este 
valida. 
Analiza multicoliniaritatii 

•  Coliniaritatea reprezinta relatia liniara dintre doua 
variabile independente ale unui model. 
•  Prezenta sa poate duce la distorsiuni serioase ale 
parametrilor modelului. 
•  Sugerata de prezenta erorilor standard mari sau de 
sensitivitatea exagerata a parametrilor. 
•  Evidentiata utilizandu­se cele trei teste Farrar si 
Glauber.
Primul test Farrar si Glauber 
•  Se bazeaza pe compararea matricei de corelatie a 
modelului cu matricea unitate, cu ajutorul testului χ 2 

2 é 1 ù T
χc = - ên - 1 - (2(m - 1)
+ 5)
ú lndet[Z Z]
ë 6 û
•  Valoarea teoretica a lui χ 2  se regaseste in tabelele 
statistice ale repartitiei χ 2 , considerandu­se 1/2(m­1)(m­ 
2)  grade de libertate. 

•  Daca χ 2 > χ 2 , atunci se concluzioneaza ca exista 
multicoliniaritate la nivelul modelului (regresiei) 
analizate. 
Al doilea test Farrar si Glauber 
•  Permite identificarea variabilelor cel mai afectate de coliniaritate 
•  Se bazeaza pe compararea matricei de corelatie a modelului cu 
matricea unitate, cu ajutorul testului Fisher. 

ii
(n (m -
1)) -
Fc =(r - 1)
m 2 -
•  Valoarea teoretica a lui F se regaseste in tabelele statistice ale 
repartitiei Fisher, considerandu­se n­m+1 si m­2  grade de libertate. 
•  Daca F c > F t , atunci se concluzioneaza ca ipoteza ortogonalitatii 
intre variabilele independente nu este acceptata. 
Al treilea test Farrar si Glauber 
•  Permite stabilirea semnificatiei statistice a coeficientilor de corelatie 
•  Coeficientii de corelatie partiala intre X i  si X j  se determina pe baza 
formului: 
ij
-r
rij =
ii jj
r - r
•  Apoi se calculeaza valoarea testului Student dupa formula: 
rij ´ -
n (m - 1)
t ij =
2
(1 -r ij
)

•  Daca t ij > t t , atunci se concluzioneaza ca ipoteza nula este respinsa. 

S-ar putea să vă placă și