Documente Academic
Documente Profesional
Documente Cultură
Analiza predictiva
• Presupune realizarea de estimari asupra evolutiei
viitoare a fenomenelor de marketing, utilizand ca
metode de lucru:
Analiza seriilor dinamice (univariata)
Regresia (bivariata sau multivariata)
liniara;
logistica;
hiperbolica;
Modelarea.
Criterii de clasificare ale analizei
predictive
• Gradul de cuprindere la care se face previziunea:
– nivel de produs (marca);
– nivel de grup de produse (linie sau gama);
– nivel de unitate economica;
– nivel de ramura de activitate;
– nivelul economiei nationale (previzune macroeconomica);
• Aria geografica inclusa in procesul de previziune:
– nivel local;
– nivel regional;
– nivel national;
– nivel international.
Criterii de clasificare ale analizei
predictive
• Orizondul de previziune poate fi:
– scurt (o perioada/1 an);
– mediu (pana la 5 perioade/ani);
– lung (peste 5 perioade/ani);
• Alte criterii:
– Precizia rezultatelor (previziuni cantitative si calitative);
– Tipul de date utilizate;
– Considerarea influentelor unor factori perturbatori (metode
endogene si exogene);
Lanturile Markov
• Metoda lanturilor Markov reprezinta o modalitate de
previziune cu utilitate limitata, ce nu presupune nici
existenta unei serii cronologice, nici existenta unei
asocieri.
• Proprietatea Markov: starea viitoare depinde doar de
starea prezenta si de o matrice a probabilitatilor de
schimbare a starii (starea viitoare nu depinde de stari
trecute) – viitorul este conditional independent de
trecut.
• Probabilitatea unei anumite stari de a depinde de starile
anterioare:
P ( s ik | s i 1 , s i 2 , K, s ik -1 ) = P ( s ik | s ik -1 )
Lanturile Markov
• Probabilitatea unei stări poate fi calculată cu
ajutorul următoarei formule:
P(s i1, s i2 , K, s ik
=
) P(s ik | s i1, s i2 , K, s ik -1 )P(s , s i2 ,
i1
K, s ik -1 )
= P(s ik
| s ik -1 )P(s i1
, s i2 , K, s ik
=K
-1 )
= P(s ik
| s ik -1 )P(s ik
K
-1 | s ik - 2 ) P(s i2 | s i1 )P(s i1
)
• Pentru a defini lanţul Markov trebuie specificate :
– probabilitatea de tranziţie: a ij = P(s i
| sj )
– probabilitatea iniţială:
p i = P ( s i )
Lanturile Markov
• Matricea probabilitatilor de tranzitie este alcatuita
pe baza probabilitatile de transformare
(schimbare a starii) a fiecarei variabile:
– Exemplu: utilizarea clasica in marketing – evolutia
cotei de piata (matricea probabilitatii de tranzitie este
alcatuita pe baza unui indicator de loialitate / tranzitie
a respondentilor pentru o anumita marca).
– Pe piaţa şampoanelor dermatocosmetice există trei
produse (2006): Selegel, Tgel şi Nizoral, cu cotele de
piata:
Selegel Ducray Nizoral
25% 35% 40%
Lanturile Markov
• Probabilitatile de tranzitie (cumparatori care isi
vor schimba samponul in luna urmatoare):
Reorietări
Produsul părăsit
Selegel Ducray Nizoral
Selegel x 0.10 0.05
Ducray 0.15 x 0.10
Nizoral 0.10 0.10 x
Lanturile Markov
• Matricea probabilitatilor de tranzitie.
0,85 0.10 0.05
0.15 0,75 0.10
0.10 0.10 0,8
• Cunoscuta in literatura de specialitate si sub denumirea
de analiza seriilor de timp.
• Presupun utilizarea unor date istorice (inregistrari ale
evolutiei unui fenomen in timp).
• Reprezinta cea mai facila metoda (logistic si matematic)
de realizare a previziunilor.
• Previziunea naiva: in perioada urmatoare variabila
investigata isi va pastra nivelul actual:
Pt +1 =Y t
Metoda modificarii procentuale
• Metoda modificării procentuale (MMP) urmăreşte să
evalueze schimbarea procentuală a variabilei între
perioade succesive de timp.
Pt +1 = t ´ MMP + Y t 0
• unde: MMP t reprezinta media modificării procentuale
pentru primele t perioade, iar Y 0 este valoarea
observată din prima perioada a variabilei previzionate.
Metoda modificarii procentuale
• Exemplu: Presupunand un volum al desfacerilor
(vanzari) pentru berea Tuborg in primele 6 luni ale
anului conform tabelului de mai jos, se vor estima
vanzarile din luna iulie.
Luna Vanzari (hl)
Ianuarie 12000
Februarie 10000
Martie 11000
Aprilie 13000
Mai 14000
Iunie 15000
Metoda modificarii procentuale
• Exemplu: Presupunand un volum al desfacerilor
(vanzari) pentru berea Tuborg in primele 6 luni ale anului
conform tabelului de mai jos, se vor estima vanzarile din
luna iulie.
-Y
Yt 0
MMPt =
n -1
15000- 12000
MMP6 = = 600
6 -1
Yt -1 Yt - 2 Y1
MPM t =
n
Metoda modificarii procentuale
mobile
• Metoda modificării procentuale mobile (MMPM)
presupune utilizarea formulei de previziune:
Pn +1 =(1 + MMP n
)
·Yn
• Pentru perioada m care urmeaza celor n
perioade observate (date istorice), formula se
transforma dupa:
Pn + m = MMP ·Y n n
·m +Y n
Metoda mediilor mobile
• Metoda mediilor mobile (MM) este utilizata atunci cand se
doreste acordarea unei importante (greutati) superioare
observatiilor recente dintrun set de date istorice, fata de
cele de la inceputul setului.
• Previziunile se fac asupra unui set de valori ajustate
(teoretice), care inlocuiesc termenii initiali ai seriei
cronologice, determinate cu ajutorul formului:
L -1
2
1
ˆ =
Yt
L
å t -L
Yt
i =
2
• presupunea alegerea unui interval de referinta L (L < n), la
nivelul caruia se vor raporta calculele pentru determinarea
mediilor mobile. Se recomanda ca L < 8.
Metoda mediilor mobile
• Pentru o serie de aplicatii, se pot utiliza si date
“viitoare”, metoda fiind centrata pe o anumita valoare. In
acest fel, metoda nu prevede evolutia ulterioara a
fenomenului, ci valorile “asteptate”, conform trendurilor
presupuse de valoarile observate.
• Metoda se bazeaza pe propritatea mediei aritmetice de
compensare a erorilor, diminuand astfel influenta
oscilatiilor periodice. Sirul obtinut reprezinta trendul si
reflecta tendinta comuna, generala a seriei cronologice.
Metoda mediilor mobile
• Exemplu: analiza vanzarilor (milioane EURO) lunare ale
URBB Bucuresti.
5
1 1
• Metoda de calcul: P3 = å Yt = (5 + 6 + 8 + 7 + 6,5)= 6,5
5 i =1 5
6
1 1
P4 = å
5 i=2
Yt =
5
(6 + 8 + 7 + 6,5 + 7,2)= 6,9
7
1 1
P5 = å
5 i=3
Yt =
5
(8 + 7 + 6,5 + 7,2 + 6,8)= 7,1
Metoda mediilor mobile
• Previziunea se face asupra setului de date
ajustat, utilizand metode de analiza a seriilor
dinamice la alegere (MMP, MMPM, etc.).
• Media mobile a schimbarilor procentuale (MPM)
pentru setul de valori ajustate dupa metoda
mediilor mobile este:
Yt -Y- Yt -1 -Y- Y2 -Y
t 1
+ t 2
+ ... + 1
Yt -1 Yt - 2 Y1
MPMt = = 0.06125
n
P13 = MMP ˆ
·Y10 ·3 + Yˆ = 6.692
10 10
Metoda nivelarii exponentiale
• Metoda nivelarii exponentiale este mai precisa decat
metodele anterioare. La randul ei, creaza posibilitatea
ca cele mai recente observatii sa fie luate în calcul cu
ponderi mai mari.
Pt +1 = αY +(1 - α)P
t t
• presupunea alegerea unui coeficient de nivelare α (0 <
α < 1), valoarea acestuia fiind stabilita fie prin utilizarea
mediilor mobile, fie prin incercari, urmata de evaluarea
acuratetei seriilor de valori previzionate (suma
patratelor valorilor reziduale).
Metoda nivelarii exponentiale
• Exemplu: analiza vanzarilor (milioane EURO) lunare ale
URBB Bucuresti. Vom analiza trei coeficienti:
• α = 0,5;
• α = 0,33; P2 = 0,5 ´ 6 +(1 - 0,5)
´5
• α = 0,25;
Previziune (α=0,5) 5 5,5 6,75 6,9 6,7 6,9 6,9 6,6 6,3 6,4 6,9 7,4
Previziune (α=0,33) 5 5,33 6,22 6,48 6,49 6,73 6,75 6,6 6,4 6,47 6,78 7,12
Previziune (α=0,25) 5 5,25 5,94 6,2 6,28 6,51 6,58 6,51 6,38 6,44 6,68 6,96
Metoda nivelarii exponentiale
• Valorile asteptate pentru perioada urmatoare:
• 7,6 milioane (α = 0,5);
P13 = 0,5 ´ 7,8 +(1 - 0,5)
´ 7,4 = 7,6
• 7,34 milioane (α = 0,33);
Pt + k = α +β P
t t k -1
• unde:
α
at = 2P¢ - P¢¢ βt = (P¢ - P¢¢)
t t
t t
1 -α
• iar
Pt ¢ = aX t + (1 - a ) P t ¢-1
Pt ¢ ¢ = a P t ¢ + (1 - a ) P t ¢-¢1
Metoda nivelarii exponentiale
• Metoda nivelarii exponentiale cu doi parametrii (Metoda
Holt) este mai flexibilitata decat metoda Brown, intrucat
permite nivelarea tendintei folosind un parametru diferit
de cel al seriei dinamice iniţiale.
• Necesita doar un minim de 3 valori istorice pentru a fi
implementate (insa acuratetea ei este influentata direct
de dimensiunea seriei istorice utilizate).
• presupunea utilizarea a 3 coeficient de nivelare
dinamici α, β si γ (0 < α, β, γ < 1).
• Metoda este utilizata pentru a determina trendul
evolutiei fenomenului, iar pe baza acestuia nivelul
ulterior al variabilei previzionate.
Metoda nivelarii exponentiale
• Seriile asociate metodei Holt au forma:
Pt =( α + βt)T + ε t t
• unde α reprezinta o constanta subunitara asociata
nivelului initial al seriei, β este un indice asociat trend
ului seriei, iar ε t este asociat erorilor (influentelor)
aleatorii.
• T t reprezinta trendul (evolutia) asociat seriei de valori
istorice observate, calculat dupa formula:
Tt = γ(P t -1
+ ( - γ )P -
- Pt - 2 ) 1 t 1
Metoda nivelarii exponentiale
• Previziunea valorilor, conform metodei Holt, presupune
utilizarea formulei:
Pt = αYt +(1 - α)(P t -1 +T
t
)
• In cazul in care in setul de date este inclus si un factor
de sezonalitate, se utilizeaza metode nivelarii
exponentiale sezoniere a lui Winters.
• Previziunea cu ajutorul acestei metode se bazeaza pe
formula:
Yt
• unde Pt =α + (1 - α )(P - + T -
t 1 t 1
)
Tt -1
Tt = γ (P - P - ) + (1 - γ )T -
t t 1 t 1
Alegerea metodei de previziune
adecvata
• Selectia modelului de previziune adecvat este realizata
prin compararea valorilor reziduale (denumite si variatia
neexplicata), dupa formula:
n
i 1=
• daca metoda utilizata este perfecta, atunci SS E = 0.
• Alternativ, se poata utiliza abaterea medie absoluta
(AMA) asociata fiecarei metode de previziune:
n
å | yi - yˆ i
|
=
i 1
AMA =
n
Alegerea metodei de previziune
adecvata
• Exemplu: previziunea vanzarilor pentru a 11a perioada:
MMP Brown Holt Winters
Anul X i Y i ε i Y i ε i Y i ε i Y i ε i
Ian 2 1,8 0,2 2 0 2,3 0,3
Feb 2,5 2,3 0,2 2,7 0,2 2,8 0,3 2,5 0
Mar 3,2 2,8 0,4 3,3 0,1 3,4 0,2 3,1 0,1
Apr 3,0 2,9 0,1 3,1 0,1 3,2 0,2 3,1 0,1
Mai 4,0 3,8 0,2 3,8 0,2 3,8 0,2 3,7 0,3
Iun 4,5 4,6 0,1 4,6 0,1 4,4 0,1 4,4 0,1
Iul 5,0 5,2 0,2 4,8 0,2 4,8 0,2 5,0 0
Aug 4,8 5,0 0,2 5,3 0,5 5,0 0,2 5,1 0,3
Sep 5,3 5,5 0,2 5,5 0,2 5,1 0,2 5,2 0,1
Oct 6,0 5,7 0,3 5,6 0,4 5,8 0,2 5,5 0,5
Alegerea metodei de previziune
adecvata
• Suma patratelor valorilor reziduale, respectiv abaterea
medie absoluta:
n
n
å | yi - yˆ i
|
SS E = å(y - yˆ ) i i
2
AMA = =
i 1
=
i 1 n
• unde p reprezinta ordinul de autoregresie (nivelarea
exponentiala reprezinta un model AR de ordin 1), δ este
un indice asociat trendului seriei, iar ε t este asociat
erorilor (influentelor) aleatorii.
p
δ =(1 - å α i
)Y
i =1
Modele autoregresive (AR)
• Box & Jenkins au demonstrat ca una dintre cele mai
eficiente modalitate de rezolvare a modelelor
autoregresive este prin utilizarea mediilor mobile (Moving
Averages – MA).
• Variantele metodei BoxJenkins:
– ARMA – utilizat pentru serii stationare (serii cu proprietatea
ca media si varianta nu se modifica semnificativ in timp –
practic, o serie de tip Brown, in care nu exista trend si
sezonalitate).
– ARIMA – utilizat pentru serii dinamice (“I” vine de la
Integrate).
Modele autoregresive (AR)
• Metoda BoxJenkins presupune trecerea prin 3 faze
pentru determinarea modelului utilizat in previziune:
1. Identificarea modelului
2. Estimarea parametrilor modelului
3. Validarea modelului
• In general, pentru realizarea unei autoregresii eficiente,
sunt recomandate serii cronologice lungi – unii autori
recomanda minim 50 de observatii, alti chiar 100.
Modele autoregresive (AR)
• Identificarea modelului:
– Dinamicitatea unei serii (modelul ARMA sau ARIMA) este
determinata utilizand un grafic de autocorelatie, care va
prezenta sezonalitate in cazul in care graficul este continuu
Modele autoregresive (AR)
• Identificarea modelului:
– Graficul de autocorelatie reprezinta pe abcisa trecerea
timpului, iar pe ordonata coeficientul de autocorelatie
corespunzator, calculat dupa formula:
N -h
1
å
n i =1
(Y t - Y)(Y t +h - Y)
Rh = 2
σ
– Liniile (valorile) de demarcatie pentru autocorelatie sunt
calculate dupa formula (α corespunde probabilitatii de
garantare a rezultatelor):
t α
-
1
2
±
n
Modele autoregresive (AR)
• Identificarea modelului:
– Modelul ARMA (fara sezonalitate si trend):
p q
(1 - åα L )
Y =(1 + å β L ) ε
i
i
t i
i
i =1 =
i 1
– Modelul ARIMA (serii dinamice):
p q
(1 - å α L (1
) - L)Y =(1 + å β L ) ε
i
i d
t i
i
=
i 1 i 1 =
Modele autoregresive (AR)
• Identificarea modelului:
– estimarea parametrilor α i si β i in intervalul [1;1] se realizeaza
prin aproximare (recomandabil cu un program statistic, gen
SPSS);
– L i reprezinta vectorul primilor i parametrii estimati pentru o serie
cronologica simpla sau care include sezonalitate (operatorul de
lag).
• Estimarea parametrilor modelului:
– parametrii p si q sunt estimati cu ajutorul graficului de
autocorelatie (valoarea maxima a lui α (probabilitatea de
garantare a rezultatelor) pentru care coeficientii de
autocorelatie nu depasesc valoareaprag).
– parametrii α i sunt estimati prin aproximare, folosind metoda
celor mai mici patrate (recomandabil cu un program statistic, gen
SPSS);
Modele autoregresive (AR)
• Identificarea modelului:
– estimarea parametrilor α i si β i in intervalul [1;1] se realizeaza
prin aproximare (recomandabil cu un program statistic, gen
SPSS);
– L i reprezinta vectorul primilor i parametrii estimati pentru o serie
cronologica simpla sau care include sezonalitate (operatorul de
lag).
• Estimarea parametrilor modelului:
– parametrii p si q sunt estimati cu ajutorul graficului de
autocorelatie (valoarea maxima a lui α (probabilitatea de
garantare a rezultatelor) pentru care coeficientii de
autocorelatie nu depasesc valoareaprag).
– parametrii α i sunt estimati prin aproximare, folosind metoda
celor mai mici patrate nonliniare (recomandabil cu un program
statistic, gen SPSS).
Modele autoregresive (AR)
• Validarea parametrilor modelului:
– Se realizeaza prin testarea ipotezei nule ca valorile
reziduale sunt independente, vectorul acestora avand o
medie si o varianta nediferite semnificativ statistic in timp.
In cazul in care parametrii nu sunt validati, trebuie revenit la
pasul 1.
– Valoarea testul Student asociat parametrilor modelului
este: α i
zc =
sα
i
• Z t ≤ Z c ≤ Z t : se accepta ipoteza nula (parametrul NU
este valid);
• altfel, se accepta ipoteza alternativa (parametrul este
valid);
Modele autoregresive (AR)
• Exemplu: previziunea vanzarilor pentru a 11a perioada:
Anul Y i (Vanzari mil. $)
Ian 10
Feb 12
Mar 11
Apr 14
Mai 14,5
Iun 15
Iul 16
Aug 18,5
Sep 19
Oct 20
Modele autoregresive (AR)
ˆ = δ + α
Yt Yt -1 +α Yt - 2 + ... + α Yt - p +ε
1 2 p t
• Valoarea coeficientilor de grad 3, estimata de
catre SPSS:
– δ = 0,934
– α 1 = 0,534 α 2 = 0,398 α 3 = 1,062
• Ecuatia de autoregresie devine astfel:
ˆ = -0 , 934 + 0, 534 Y - 0, 398 Y
Yt + 1, 062 Y
t -1 t-2 t -3
Modele autoregresive (AR)
• Pentru perioada 11 vom avea:
ˆ = -0,934 + 0,534 ´ 20 - 0,398 ´ 19 + 1,062 ´ 18,5 = 21,8
Y11
• Testarea semnificatiei parametrilor:
α 3
1, 062
z =c
= = 3 , 218
s α3
0 , 333
• pentru α=0,05 z t =1,96 => z c > z t => ipoteza
alternativa va fi acceptata (parametrul este valid)
Modele autoregresive (AR)
• Testarea semnificatiei parametrilor:
α2 - 0, 398 α1 - 0, 534
=
zc = = -1 , 005 zc = = = 1 , 684
sα
2
0 , 396 sα
1
0 , 317
• pentru α=0,05 z t =1,96 =>
z t (0,96) ≤ z c (1,005) ≤ z t (1,96) => ipoteza nula va fi
acceptata (parametrul NU este valid)
ˆ = -0 , 934 + 1, 062 Y
Yt t -3
• Testul DurbinWatson necesita calculul parametrului d, dupa formula:
T
ˆ ˆ 2
å (U t - U t -1 )
d = t -2 T
ˆ
å t
U 2
t =1
• Daca d<d L sau d>d T , atunci este acceptata ipoteza nula (d L si d T sunt
luate din tabelele asociate testului DurbinWatson).
• Testul Geary este de natura neparametrica si are ca punct de plecare
calculul numarului schimbarilor de semn in seria valorilor reziduale δ.
• Daca δ min < δ < δ max (tabelate), atunci ipoteza nula este acceptata.
Regresia
• Regresia reprezinta o clasa semnificativa de
metode de previziune, in care valoarea unei
variabile (denumita dependenta) este
previzionata folosind valorile altor variabile
(independente), de ale carei valori depinde.
• Dependenta variabilei previzionate trebuie
demonstrata, utilizand un coeficient de corelatie
(corelatia trebuie sa fie cel putin medie, dar se
recomanda utilizarea corelatiilor puterice sau
foarte puternice).
Regresia
• Formele regresiei:
– in functie de numarul de variabile utilizate:
• bivariata (o singura variabila independenta);
• multivariata (doua sau mai multe variabile
independente);
– in functie de forma relatiei dintre variabile (identificata
cu ajutorul analizei grafice):
• liniara;
• logistica;
• polinomiala;
• trigonometrica;
Regresia liniara
• Regresia liniara bivariata: y = a + bx
Regresia liniara
• Parametrii regresiei (metoda celor mai mici
patrate): n n n
nå x y -(å x )(å y )
i i i i
= = =
b =
i 1 i 1 i 1
n n
nå x -(å x )
2 2
– panta (b): i
i
=
i 1 =
i 1
– termenul liber (a): a = y - bx
Metoda regresiei multiple
• Permite analiza relatiei liniare dintre o variabila dependenta si una
sau mai multe variabile indepentende
• Obiectiv: explicarea si previziunea variatiei variabilei dependente in
functie de covarianta ei cu variabilele independente.
Y
ˆ = α + βˆ X + βˆ X + ... + βˆ X + ... + βˆ X
1 1 2 2 i i n n
• Parametrii β sunt estimati utilizand metoda celor mai mici patrate
(un model cu n variabile va avea nevoie de n perechi de date
“istorice” pentru scrierea unui sistem de n ecuatii).
• Exemplu: cererea de bunuri/servicii (dependenta) in functie de
factori determinanti (venituri, cifra de afaceri, pret, etc.)
Metoda regresiei multiple
• Metoda celor mai mici patrate pentru o regresie
liniara de gradul 2:
n n n n
å =1
(x i1 ´y i
) å =1
2
x 2i - å =1
(x 2i å
y i ) ( x i1x i2 )
=1
β1 = i
n
i
n
i
n
i
å å
i =1
x i1
2
i =1
2
x i2 -( å i =1
x i1x i2 )
2
n n n n
å =
(x i2 y i ) x i1 - å =1
2
å =1
(x i1y i ) ( x i1x i2 ) å =1
β2 = i 1
n
i
n
i
n
i
å å
=
i 1
x i1
2
i =1
2
x i2 -( åi =1
x i1x i2 )
2
α = y -β 1
x1 -β 2
x2
Metoda regresiei multiple
• Estimarea semnificatiei statistice a parametrilor
este utilizata pentru a se verifica faptul ca
variatia variabilei dependente nu este datorata
intamplari (evenimentelor aleatoare), ci este
rezultatul variatiei uneia sau mai multor variabile
independente.
• Realizata cu ajutorul testului Student, in care
numarul de grade de libertate al valorii teoretice
(tabelate) se determina cu conform:
Nivelul de semnificatie = (1nivelul de confidenta)/2
Metoda regresiei multiple
• Estimarea semnificatiei statistice a parametrilor
este utilizata pentru a se verifica faptul ca
variatia variabilei dependente nu este datorata
intamplari (evenimentelor aleatoare), ci este
rezultatul variatiei uneia sau mai multor variabile
independente.
• Realizata cu ajutorul testului Student, in care
numarul de grade de libertate al valorii teoretice
(tabelate) se determina cu conform:
Nivelul de semnificatie = (1nivelul de confidenta)/2
Metoda regresiei multiple
• Testarea semnificatiei (reprezentativitatii) parametrilor
de regresie:
βi
tc = b j ± s bˆ ´ t T , j
j
sβ
i
• Eroarea standard a unui parametru estimat arata cu
cat poate sa varieze acesta in jurul valorii sale ca
urmare a erorii aleatoare.
Metoda regresiei multiple
• Testul F este utilizat pentru a determina
semnificatia reprezentativitatea) variatiei
variabilei dependente explicata de variatia
variabilelor independente considerate.
• Utilizeaza formula:
n
ˆ - Y(n
å
=
i 1
( Yi ) - k - 1)
Fc = n
ˆ - Y)
å
i 1=
( Yi
2
(k - 1)
Metoda regresiei multiple
• Coeficientul (raportul) de corelaţie multiplă
R reprezinta gradul in care variabilele
independente, per ansamblu, explica variatia
variabilei dependente .
• Utilizeaza formula: n
å (yˆ - y )
2
=
R y, x
, x 2 ,..., x k
1
= i 1
n
=
å (y
i =1
i
- y)
2
Metoda regresiei multiple
• Pentru a putea caracteriza proporţia variaţiei variabilei
dependente datorată variaţiei setului de variabile
variabile independente ale modelului se calculează
coeficientul de determinare multiplă R 2 (pătratul
raportului de corelaţie multiplă), care arată proporţia
din variaţia totală a variabilei Y care este explicată de
variabilele independente X1, X2, ...Xk.
• În afara coeficienţilor de corelaţie multiplă, în analiza
corelaţiei dintre variabile se mai pot calcula şi
coeficienţii de corelaţie parţială, ce caracterizează
intensitatea legăturii dintre două variabile, în ipoteza că
celelalte variabile rămân constante
Metoda regresiei multiple
• Exemplu: Estimarea nivelului vanzarilor de telefoane mobile
plecand de la suprafata comerciala a magazinului si numarul de
asistenti de vanzare.
Vânzări Număr Suprafaţa
(bucăţi) vânzători (persoane) comercială
22 7 98
20 5 90
23 8 110
26 9 130
30 12 140
32 15 145
45 22 156
50 25 160
52 32 164
60 40 175
Metoda regresiei multiple
• Sistemul de 3 ecuaţii simultane cu 3 necunoscute, pentru determinarea
estimatorilor α, β 1 şi β 2 este.
ì nα +β 1i å x 1i +β 2 å x 2i = åy i
ï
ïï
í α å x 1i +β 1 å x
2
1i +β 2 å x 1i x 2i = åx 1i
yi
ï
ï
ïî β å x 2i +β 1 å x 1i x 2i +β 2 å x
2
2i = åx 2i
yi
ì
ï 10α + 175β + 1368β = 360
ïï 1 2
ïî
Metoda regresiei multiple
• Dupa rezolvarea ecuatiei vom obtine:
– β 1 = 0,974543752;
– β 2 = 0,104112437;
– α = 4,702902918;
Ŷ = 4,703 +0,97X 1i + 0,104X 2i
• Coeficientul de corelatie multipla este:
n
å (ˆ - y)
2
yi
=
R y, x
1
, x 2 ,...,x k
= i 1
n
= 0,989085
å (y - y)
2
i =1
Metoda regresiei multiple
• Valorile reziduale:
2
Y i ŷ yi ε = yi ŷ (yi ŷ)
22 22,92209467 22 0,922094675 0,850258589
20 18,15286921 20 1,847130787 3,411892145
23 23,49930977 23 0,499309769 0,249310245
26 26,96671515 26 0,966715154 0,934538188
30 31,04921181 30 1,04921181 1,100845422
32 34,49973652 32 2,499736517 6,248682653
50 45,79082822 50 4,209171778 17,71712706
52 52,87302888 52 0,873028881 0,762179427
60 61,77950786 60 1,779507855 3,166648206
40,85910144
Metoda regresiei multiple
• Validitatea valorilor previzionate:
n
ˆ - Y(n
å ) - k - 1)
( Yi
Fc = =
i 1
n
= 157,712551 6
å( Yˆ - Y)(k - 1)
i =1
i
2
• Valoarea tabelata a lui F pentru o probabilitate de garantare a
rezultatelor de 95% si 52 de grade de libertate: 3,23 => F c =157,71 > F t
=3,23 => se accepta ipoteza alternative (valoarea coeficientului de
corelatie multipla este semnificativ diferita de zero), deci regresia este
valida.
Analiza multicoliniaritatii
• Coliniaritatea reprezinta relatia liniara dintre doua
variabile independente ale unui model.
• Prezenta sa poate duce la distorsiuni serioase ale
parametrilor modelului.
• Sugerata de prezenta erorilor standard mari sau de
sensitivitatea exagerata a parametrilor.
• Evidentiata utilizanduse cele trei teste Farrar si
Glauber.
Primul test Farrar si Glauber
• Se bazeaza pe compararea matricei de corelatie a
modelului cu matricea unitate, cu ajutorul testului χ 2
2 é 1 ù T
χc = - ên - 1 - (2(m - 1)
+ 5)
ú lndet[Z Z]
ë 6 û
• Valoarea teoretica a lui χ 2 se regaseste in tabelele
statistice ale repartitiei χ 2 , consideranduse 1/2(m1)(m
2) grade de libertate.
• Daca χ 2 > χ 2 , atunci se concluzioneaza ca exista
multicoliniaritate la nivelul modelului (regresiei)
analizate.
Al doilea test Farrar si Glauber
• Permite identificarea variabilelor cel mai afectate de coliniaritate
• Se bazeaza pe compararea matricei de corelatie a modelului cu
matricea unitate, cu ajutorul testului Fisher.
ii
(n (m -
1)) -
Fc =(r - 1)
m 2 -
• Valoarea teoretica a lui F se regaseste in tabelele statistice ale
repartitiei Fisher, consideranduse nm+1 si m2 grade de libertate.
• Daca F c > F t , atunci se concluzioneaza ca ipoteza ortogonalitatii
intre variabilele independente nu este acceptata.
Al treilea test Farrar si Glauber
• Permite stabilirea semnificatiei statistice a coeficientilor de corelatie
• Coeficientii de corelatie partiala intre X i si X j se determina pe baza
formului:
ij
-r
rij =
ii jj
r - r
• Apoi se calculeaza valoarea testului Student dupa formula:
rij ´ -
n (m - 1)
t ij =
2
(1 -r ij
)
• Daca t ij > t t , atunci se concluzioneaza ca ipoteza nula este respinsa.