Documente Academic
Documente Profesional
Documente Cultură
- analiza predictiva -
Analiza predictiva
Presupune realizarea de estimari asupra evolutiei viitoare a fenomenelor de marketing, utilizand ca metode de lucru:
Analiza seriilor dinamice (univariata) Regresia (bivariata sau multivariata)
liniara; logistica; hiperbolica;
Modelarea.
Alte criterii:
Precizia rezultatelor (previziuni cantitative si calitative); Tipul de date utilizate; Considerarea influentelor unor factori perturbatori (metode endogene si exogene);
Lanturile Markov
Metoda lanturilor Markov reprezinta o modalitate de previziune cu utilitate limitata, ce nu presupune nici existenta unei serii cronologice, nici existenta unei asocieri. Proprietatea Markov: starea viitoare depinde doar de starea prezenta si de o matrice a probabilitatilor de schimbare a starii (starea viitoare nu depinde de stari trecute) viitorul este conditional independent de trecut. Probabilitatea unei anumite stari de a depinde de starile anterioare:
Lanturile Markov
Probabilitatea unei stri poate fi calculat cu ajutorul urmtoarei formule:
K = P = = P P s 1 1 , k k i i , s s 2 i | | k k s i i , 1 s s i s
s , , 2 1 i i s s , 1 i s P P 1 i s 1 | 2 i k i s s , 1 P , 2 k i i s s 2 , 1 , i k i s | , s 2 i k | i 1 s s , 1 k i i P s s K
k i
1 k i
=K
P P
i = P( si )
s | i s
Lanturile Markov
Matricea probabilitatilor de tranzitie este alcatuita pe baza probabilitatile de transformare (schimbare a starii) a fiecarei variabile:
Exemplu: utilizarea clasica in marketing evolutia cotei de piata (matricea probabilitatii de tranzitie este alcatuita pe baza unui indicator de loialitate / tranzitie a respondentilor pentru o anumita marca). Pe piaa ampoanelor dermato-cosmetice exist trei produse (2007): Selegel, T-gel i Nizoral, cu cotele de piata:
Lanturile Markov
Indicele de loialitate.
Selegel Ducray Nizoral 0,85 0,75 0,8
Probabilitatile de tranzitie (cumparatori care isi vor schimba samponul in luna urmatoare):
Produsul prsit Selegel Ducray Nizoral Reorietri Selegel x 0.15 0.10 Ducray 0.10 x 0.10 Nizoral 0.05 0.10 x
Lanturile Markov
Matricea probabilitatilor de tranzitie.
0,85 0.15 0.10 0.10 0,75 0.10 0.05 0.10 0,8
l e g e l e S
5 0 , 0 * 0 4 0 1 , 0 5 3 5 8 , 0 5 2
Selegel 30,5% Ducray Nizoral 32,75% 36,75%
5 , 0 3
1 t
unde: MMPt reprezinta media modificrii procentuale pentru primele t perioade, iar Y0 este valoarea observat din prima perioada a variabilei previzionate.
t P
Y t P M M t
Luna
Ianuarie Februarie Martie Aprilie Mai Iunie
Vanzari (hl)
12000 10000 11000 13000 14000 15000
Y 1 t Y n
P M M
= P M M
= Y
e i l u i
0 0 0 0 6 0 2 1 1 1 0 6 7 0 0 5 1 +
0 0 6
0 0 0 2 1
0 0 6 5 1
Y = M P M
t
Y 1 Y 2 Y . . .
1 t
1 t
2 t
1 t
2 t
= +
Pentru perioada m care urmeaza celor n perioade observate (date istorice), formula se transforma dupa:
+
Y n P M M 1
+ m n Y n P M M
1 n
m n
=
t
1 L
presupunea alegerea unui interval de referinta L (L < n), la nivelul caruia se vor raporta calculele pentru determinarea mediilor mobile. Se recomanda ca L < 8.
L 2 t i =
9 6
10
11 -
12 -
1 5
, 7 9 5 , , 6 6 8 , 6 2 5 , 7 , 6 2 , 7 5 , 7 6 5 , 8 7 6 8 7 6 6 8 5 1 5 1 51 5
Metoda de calcul:
=
4
=
=
= + + + +
= + + +
=
=
1 i
=
t t Y Y 2 3 6 7 i i 1 51 5
= =
= + +
5 P
Y = M P M
t
Y 1 Y 2 Y . . .
1 t
1 t
2 t
5 2 1 6 0 . 0
1 t
2 t
Y 0 1 P M M
3 0 1
2 9 6 . 6
3 1
0 1
+ 1
presupunea alegerea unui coeficient de nivelare (0 < < 1), valoarea acestuia fiind stabilita fie prin utilizarea mediilor mobile, fie prin incercari, urmata de evaluarea acuratetei seriilor de valori previzionate (suma patratelor valorilor reziduale).
t P
t Y
t P
=
5
+
7
6,8 6,9 6,75 6,58
6 5 , 0
5 5 , 0 1
2
6 5,5 5,33 5,25
3
8 6,75 6,22 5,94
4
7 6,9 6,48 6,2
6
7,2 6,9 6,73
8
6,3 6,6 6,6
9
6 6,3 6,4
10
6,6 6,4 6,47 6,44
11
7,4 6,9 6,78 6,68
12
7,8 7,4 7,12 6,96
6,28
6,51
6,51
6,38
P
P
8 , 7 5 , 0
8 , 7
5 , 0 1
4 , 7
6 , 7
3 1
3 3 , 0
3 3 , 0
2 1 , 7
4 3 , 7
3 1
5 2 , 0
8 , 7
5 2 , 0
6 9 , 6
8 1 , 7
3 1
P t
k t
1 k
unde:
P 1
P
t
iar
Pt = X t + (1 )Pt1 1 Pt = Pt + (1 )Pt
) P
t
P 2
= +
+ T
t
unde reprezinta o constanta subunitara asociata nivelului initial al seriei, este un indice asociat trend-ului seriei, iar t este asociat erorilor (influentelor) aleatorii. Tt reprezinta trend-ul (evolutia) asociat seriei de valori istorice observate, calculat dupa formula:
P
T
t
+(
P 1 t P
P 1
2 t
1 t
+ 1
In cazul in care in setul de date este inclus si un factor de sezonalitate, se utilizeaza metode nivelarii exponentiale sezoniere a lui Winters. Previziunea cu ajutorul acestei metode se bazeaza pe formula:
Pt + m = (Pt + bt m )St L + m
1 t
Y P
+(
S 1
1 t
unde
t Y T P
+(
)(
P 1
1 t
1 t
)+ (
T 1
1 t
1 t
=
= 1 i
y
i
daca metoda utilizata este perfecta, atunci SSE = 0. Alternativ, se poata utiliza abaterea medie absoluta (AMA) asociata fiecarei metode de previziune:
S S
y |
| i y
A M A
1 i
Brown i Yi
2 2,7 3,3 3,1 3,8 4,6 4,8 5,3 5,5 5,6
Holt Yi
2,3 2,8 3,4 3,2 3,8 4,4 4,8 5,0 5,1 5,8
Winters i
-0,3 -0,3 -0,2 -0,2 0,2 0,1 0,2 -0,2 0,2 0,2
Xi
2 2,5 3,2 3,0 4,0 4,5 5,0 4,8 5,3 6,0
Yi
1,8 2,3 2,8 2,9 3,8 4,6 5,2 5,0 5,5 5,7
i
0 -0,2 -0,1 -0,1 0,2 -0,1 0,2 -0,5 -0,2 0,4
Yi
2,5 3,1 3,1 3,7 4,4 5,0 5,1 5,2 5,5
i
0 0,1 -0,1 0,3 0,1 0 -0,3 0,1 0,5
0,2 0,2 0,4 0,1 0,2 -0,1 -0,2 -0,2 -0,2 -0,3
| i y in y | 1 n i A M A
=
2
n =
S S
y i y
MMP
0,51 2,1
1 i
SSE AMA
unde p reprezinta ordinul de autoregresie (nivelarea exponentiala reprezinta un model AR de ordin 1), este un indice asociat trend-ului seriei, iar t este asociat erorilor (influentelor) aleatorii.
Y 1
Y 2
Y p . . .
=
=
1 t
2 t
p t
i 1 p i 1
In general, pentru realizarea unei autoregresii eficiente, sunt recomandate serii cronologice lungi unii autori recomanda minim 50 de observatii, alti chiar 100.
1n
h N
Y
2
t Y
t Y
Liniile (valorile) de demarcatie pentru autocorelatie sunt calculate dupa formula ( corespunde probabilitatii de garantare a rezultatelor):
1 i
2 1
1
1 i
p =
= + 1
t = 1 i
Y i L i
i L i
= + 1
t =
i L i
Y d L 1
i L i
1 i
1 i
Estimarea parametrilor modelului: parametrii p si q sunt estimati cu ajutorul graficului de autocorelatie (valoarea maxima a lui (probabilitatea de garantare a rezultatelor) pentru care coeficientii de autocorelatie nu depasesc valoarea-prag). parametrii i sunt estimati prin aproximare, folosind metoda celor mai mici patrate (recomandabil cu un program statistic, gen SPSS);
Yi (Vanzari mil. $)
10 12 11 14 14,5 15 16 18,5 19 20
+ +
Y 1
Y 2
Y p . . .
1 t
2 t
p t
pentru =0,05 zt=1,96 => zc > zt => ipoteza alternativa va fi acceptata (parametrul este valid)
8 , 1 2 5 , 8 1 2 6 0 , 1 9 1 8 9 3 , 0 0 2 4 3 5 , 0 4 3 9 , 0 -
3
3
= 0,934 + ,062
1
+
t Y
Y
1 1
3 t Y
= 7 , 8 1
5 , 8 1 2 6 0 , 1 4 3 9 , 0 -
Analiza autocorelatiei
Testul Durbin-Watson necesita calculul parametrului d, T dupa formula: 2 U U ( ) t t 1 d = t 2 T 2 U t
Daca d<dL sau d>dT, atunci este acceptata ipoteza nula (dL si dT sunt luate din tabelele asociate testului Durbin-Watson).
t =1
Testul Geary este de natura neparametrica si are ca punct de plecare calculul numarului schimbarilor de semn in seria valorilor reziduale .
Daca min< < max (tabelate), atunci ipoteza nula este acceptata.
Regresia
Regresia reprezinta o clasa semnificativa de metode de previziune, in care valoarea unei variabile (denumita dependenta) este previzionata folosind valorile altor variabile (independente), de ale carei valori depinde.
Dependenta variabilei previzionate trebuie demonstrata, utilizand un coeficient de corelatie (corelatia trebuie sa fie cel putin medie, dar se recomanda utilizarea corelatiilor puterice sau foarte puternice).
Regresia
Formele regresiei:
in functie de numarul de variabile utilizate:
bivariata (o singura variabila independenta); multivariata (doua sau mai multe variabile independente);
Regresia liniara
Regresia liniara bivariata:
= +
x b a
Regresia liniara
Parametrii regresiei (metoda celor mai mici patrate):
panta (b):
n = n n
x y
i i = = 1 i 1 i n
n
termenul liber (a):
y i x n
=
1 i
2
i
1 i
1 i
x b y a
= +
Parametrii sunt estimati utilizand metoda celor mai mici patrate (un model cu n variabile va avea nevoie de n perechi de date istorice pentru scrierea unui sistem de n ecuatii). Exemplu: cererea de bunuri/servicii (dependenta) in functie de factori determinanti (venituri, cifra de afaceri, pret, etc.)
X 1
X 2
X i . . .
X n . . .
= n =
2i 2 x
y i 2 x
x 1 i x
1 i
2 i
1 i
=
1 i
1 i
1 i
x
= =
n
1 n i 1 2i
2 2 i
n
2 2i x
x 1 i x
1 i
1 i
= 2 i
1 2i x
y 2 i x
y 1 i x
x 1 i x
2 i
1 i
1 i
1 i
1 i
x
= =
1 n i 1 2i
2 2i x
x 1 i x
1 i
1 i
x 1 y
x 2
s t j j T, j
Eroarea standard a unui parametru estimat arata cu cat poate sa varieze acesta in jurul valorii sale ca urmare a erorii aleatoare.
i
i
Y 1 k n Y
i =
1n i =
1 k
1 i
(
= =
1 in
x , . . . , 2 x , 1 x , y
1 i
+ +
=
i 2
i 1
i 1
i 2
+ +
= =
i 1 2
x i 1 x
y i 1 x
i 1
i 2 2
x i 1 x
y i 2 x
i 2
i 2
+ +
+ +
4 5 6 7 1 2 0 8 5 6 7 3 2 2 2 6 1 8 8 2 7 6 7 4 3 6 9 1 2 1 1 1 1 1 5 2 2 7 3 7 1 4 6 2 1 0 1 1 5 8 7 6 1 3 1 = + + =
(
= =
5 8 0 9 8 9 , 0
1 in
x , . . . , 2 x , 1 x , y
1 i
22 22,92209467 22 -0,922094675 0,850258589 20 18,15286921 20 1,847130787 3,411892145 23 23,49930977 23 -0,499309769 0,249310245 26 26,96671515 26 -0,966715154 0,934538188 30 31,04921181 30 50 45,79082822 50 -1,04921181 1,100845422 4,209171778 17,71712706 32 34,49973652 32 -2,499736517 6,248682653 52 52,87302888 52 -0,873028881 0,762179427 60 61,77950786 60 -1,779507855 3,166648206 40,85910144
= = = Y 1 k n Y
i 1n i = 2
1 i
6 1 5 5 2 1 7 , 7 5 1
Valoarea tabelata a lui F pentru o probabilitate de garantare a rezultatelor de 95% si 52 de grade de libertate: 3,23 => Fc =157,71 > Ft =3,23 => se accepta ipoteza alternative (valoarea coeficientului de corelatie multipla este semnificativ diferita de zero), deci regresia este valida.
1 k
Analiza multicoliniaritatii
Coliniaritatea reprezinta relatia liniara dintre doua variabile independente ale unui model. Prezenta sa poate duce la distorsiuni serioase ale parametrilor modelului. Sugerata de prezenta erorilor standard mari sau de sensitivitatea exagerata a parametrilor. Evidentiata utilizandu-se cele trei teste Farrar si Glauber.
2 1 6 1 n
Valoarea teoretica a lui 2 se regaseste in tabelele statistice ale repartitiei 2, considerandu-se 1/2(m-1)(m-2) grade de libertate. Daca 2 > 2, atunci se concluzioneaza ca exista multicoliniaritate la nivelul modelului (regresiei) analizate.
2c
] Z T Z [ t e d n l 5
1 n m 1 m 2
i i
Valoarea teoretica a lui F se regaseste in tabelele statistice ale repartitiei Fisher, considerandu-se n-m+1 si m-2 grade de libertate. Daca Fc > Ft, atunci se concluzioneaza ca ipoteza ortogonalitatii intre variabilele independente nu este acceptata.
Daca tij > tt, atunci se concluzioneaza ca ipoteza nula este respinsa.
i r
j
i i
j j
i r
1 j i m 2 r 1
i t