Sunteți pe pagina 1din 14

CURS

De studiat:
1. Componentele unei serii cronologice: definiie, mod de calcul, interpretare
2. Determinarea trendului unei serii cronologice cu sezonalitate, desezonalitatea unei
serii cronologice.
Problema:
Despre exportul si importul RO se cunosc datele:

a)
b)
c)

d)

Exportul
Importul
(mld Euro)
(mld Euro)
10,36
11,38
11,38
14,35
14,67
17,42
15,61
19,56
18,93
24,25
22,25
30.06
S se estimeze parametrii modelului simplu de regresie si s se determine
variabila rezidual (variabila eroare)
S se valideze modelul de regresie pentru un nivel de semnificaie de 5% F
critic=7,71 (Atentie, F crititc e acelasi cu F Tabelar)
Msurai intensitatea legturii directe dintre cele 2 variabile folosind un
indicator adecvat i testai semnificaia acestuia pentru o probabilitate de 95%;
T critic=2,77
S se testeze semnificaia parametrilor i s se interpeeteze valorile; T
critic=2,77.

Regresie ne spune daca exista sau nu legatura intre variabile


Corelaia-se foloseste pentru a vedea cat de puternica este legatura intre doua variabile
si pentru a studia un model de regresie
Modelul de regresie are la baza 1 sau mai multe ecuatii- un model matematic care
exprima dependenta variabilelor complexe de un ansamblu de factori
Ecuatia de baza pentru un model unifactorial este y = f(x) + e
Y e variabila dependent, endogen- depinde de 1 sau mai multi factori
f(x)- variabila independent- exogena
e- variabila reziduala
Ecuatia este la nivelul esantionului (care se extrage din populatie)

Este unifactorial deoarece are o variabila X

Aplicatie
Pentru un magazin se cunosc vanzarile de camasi barbatesti si profitul obtinut
pentru 8 zile consecutive
Nr. camasi
vandute (bucati)
3
4
1
6
1
2
2
5

Profitul
30
42
10
62
12
30
21
28

a) Sa se stabileasca existenta, forma si directia dintre cele doua variabile.


Acest lucru se realizeaza cu metoda grafica (diagrama sau graficul de corelatie)
70
60
50
40
30
20
10
0

=> legatura directa (ambele variabile cresc sau scad in acelasi sens) si liniara
b) sa se determine modelul de regresie calculand valorile ajustate ale profitului in
functie de vanzare
Modelul de regresie se afla cu sistemul de ecuatii

n b^ o + b^ 1 x i= y i
b^ o x i+ b^ 1 x 2i = x i y i

2
^b0 = x i y i x i x i y i
2
n x2i ( x i )

n x i yi x i y i
b^ 1=
2
n x 2i ( x i)

b^ 0

= 5.75

b^ 1 =7.875 > 0 => legatura este directa si liniara- ambele variabile cresc si scad
in acelasi sens ; la cresterea numarului de camasi vandute cu 1 unitate, profitul
creste cu 7.875 unitati monetare in medie
Valorile ajustate se afla calculand

^y

pentru fiecare variabila nr. de camasi

^y =b 0+ b1 x+ ei

Nr. camasi vandute


(bucati)
x

Profitul
y

^y

30

5.75 + 7.875 *
3=

42

5.75 + 7.875 *4

10

5.75 + 7.875 *1

62

5.75 + 7.875 *6

12

5.75 + 7.875 *1

30

5.75 + 7.875 *1

21

5.75 + 7.875 *1

28

5.75 + 7.875 *5

c) Sa se verifice semnificatia si validitatea modelului de regresie determinat la


punctul anterior folosind criteriul Fischer, adica testul F pentru un factor de
semnificatie alfa = 5%. Ftabelar = 5,99
Defapt aici ne intereseaza sa aflam F calculat in final, ca sa il comparam cu F
tabelar si sa determinam daca modelul e sau nu valid; probabilitatea de a fi sau nu
valid se detrimna scazand din 100% pe .

y , apoi abaterile, apoi variantele, apoi nr gradelor de libertate,

Ca pasi: calculam

dispersiile corectate si in final pe F calculat., ca sa il comparam cu F tabelar.

( y i y ) =( y i ^y ) +(^y y )
( y i y ) abatere totala (variatia neexplicata de modelul de regresie)
( y i ^y ) abatere reziduala
( ^y y )
y =

abatere sistematica (variatia explicate demodelul de regresie)


yi
n

= 29,374 nivelul mediu al profitului

Pe baza abaterilor se calculeaza indicatorii


- variante -> suma patratelor
- variana total:

2y = ( y i y )2
2

e = ( yi ^y )

- variana rezidual:

- varianta sistematica:

2y/ x = ( ^y y )2

- numarul gradelor de libertate


- k = 1 -> pentru varianta sistemica, nr variabilelor independente (k = 1 pt.
ca avem un singur x)
- n k 1 -> pentru varianta reziduala
- n 1 -> pentru varianta totala
- dispersiile corectate

( ^y y )
= y /x =
k
k
2

2
y

2
y /x

2e
( y i ^y )2

S=
=
nk1
nk1
2
e

( y i y )2
=
n1

- Fcalculat =

S y/ x
2
S e ->

Ftabelar= modelul nu e valid si var . x nu influenteaza semnif . var . y


{FcalculatFcalculat
> Ftabelar= modelul e valid ,iar x influenteaza var . y
- ipoteza nula

H0

- ipoteza alternativa

Ipoteze:

-> modelul nu este valid din punct de vedere statistic


H1

= not

H0

-> modelul este valid

S 2y / x S 2e

Sursa variatiei

Din interiorul
grupelor
explicata de
model
Dintre grupe

Suma
patratelor calc.
cu ajut.
variantelor
2y/ x

Nr. gradelor de
libertate

k=1

S 2y / x

S 2y/ x
S 2e

2e

nk1=6

S 2e

S 2y/ x
S 2e

2y

n1=7

S 2y

S 2y/ x
S 2e

Total

( y i y )

0.39
159.39
375.39
1064.39
301.89
0.39
70.14
1.89

Media
patratelor

Fcalculat

( y i ^y )2

( ^y y )2

52.56
805.14
1849.00
2340.14
90.25
72.25
582.02
495.06

62.02
185.64
2809.00
185.64
462.25
462.25
2036.27
33.06

Fcalculat > Ftabelar si concluzia: pentru o probabilitate de 95% (100 ) exista


suficiente dovezi pentru a afirma ca modelul este valid d.p.d.v. statistic, iar
variabila nr. camasi vandute are o influenta semnificativa asupra variabilei
profit.
d) Sa se masoare intensitatea legaturii dintre variabile folosind coeficientul de
corelatie liniara, testati semnificatia acestuia pentru un nivel de semnificatie de
=5%. Ttabelar = 2,74- Asta nu e musai dar nu stric s aruncai o privire
r y / x=

n x i y i x i y i

[ n x ( x ) ][n y ( y ) ]

S
r y / x =b^ 1= x
Sy

2
i

2
i

Sx =

S y=

r y /x

( xi x )2

abaterea standard a variabilei x

n1

( y i y )2
abaterea standard a variabilei y
n1

= 0,86;

semnul pantei

[ 0, 0.5 ] legatura puternica


[ 0.5, 0.75 ] legatura slaba
[ 0.75,1 ] legatura de intensitate medie

b^ 1

ne da semnul lui r; dc e negativ trecem direct in fata lui r

Testarea semnificatiei coeficientului de corelatie se face cu testul Student (testul T)


cand avem un esantion redus, altfel se face cu testul Z sau Laplace.
Ipoteze:
H 0 : r=0

H 1 :r 0
r y/ x n2

Tcalculat = test Student =

1r

2
y/ x

=4.28

Tcalculat > Ttabelar => pentru o probabilitate de 95% (100 ) exista suficiente
dovezi pentru a aprecia ca coeficientul de corelatie liniara este semnificativ, adica
exista suficiente dovezi pentru a respinge ipoteza nula.
e) Sa se masoare intensitatea legaturilor dintre cele doua variable prin raportul de
corelatie; sa se testeze semnificatia acestuia pentru =5%; sa se arate ce pondere
din variatia totala a profitului este explicata de influenta numarului de camasi
vandute. Ftabelar = 5,99
R y / x=

( y i ^y )2

1
=
( y i y )2


2e
1 2 =
y

( ^y y )2 =
( y i y )2

2y /x
2y

leg. puternica
Ponderea din variatia totala se calculeaza cu:
Aici nu cred ca e cu 1-

= 0,85 => regresia e liniara =>

2
y /x

=1 2e
y

= 0,74 => 74% din variatia profitului este explicata de influenta

numarului de camasi, iar 26% este influenta exercitata de alti factori considerati cu
actiune constanta, neinclusi in modelul de regresie
Testarea semnificatiei se realizeaza cu ajutorul criteriului Fischer, adica testul F.
H0
: R = 0 -> nesemnificativ
H1

: R 0 -> semnificativ
nk 1 2
R
k
1R2

Fcalculat =

= 17,07

Ftabelar = 5,99
Fcalculat > Ftabelar => pentru o probabilitate de 95% (100 ) exista suficiente
dovezi ca raportul de corelatie este semnificativ statistic (H1)
f) Sa se determine intervalul de incredere pentru un nivel de semnificatie de 5%,
Ttabelar = 2,24- Nici asta nu trebuie neaprat, dar poate aruncai o privire
b^ 1t tabelar Sb 1 b^ 1+t tabelar S b 1 - trebuie sa aflam: pe Sb1 si pe Se ca sa le inlocuim in
formula
b1 l-am aflat in ecuatia de regresie
S b 1=

Se

(x x )

2e
Se=
nk 1

deviatia standard (abaterea medie)

; pe

2e

l-am aflat mai sus

Trebuie sa calculam X mediu; este egal cu suma din nr de camasi vandute/numarul


de camasi; adica (3+4+1+6+1+2+2+5)/8=24/8=3
Apoi calculam (xi- x ) ca sa aflam suma care ne trebuie in formula de mai jos
x -nr

( xix )2

de
camasi
3

( 33 )2

( 43 )2

( 13 )2

( 63 )2

( 13 )2

( 23 )2

( 23 )2

( 53 )2

S b 1=

Se

(x x )

deviatia standard (abaterea medie)

2e
Se=
= 8,99 => S b 1 = 4,89
nk 1
7,87 2,44 * 4,89

7,87 + 2,44 * 4,89

Datorita faptului ca limita inferioara a intervalului este negativa iar limita


superioara este pozitiva inseamna ca intervalul provine dintr-o populatie in care
nu este semnificativ.
b^ 0 t calculat S b 0 b^ 0+t calculat S b 0

S b 0=S e

x 2i
n (xi x )2

5,75 4,28 * 6,357

= 6,357

5,75 + 4,28 * 6,357

Datorita faptului ca limita inferioara a intervalului este negativa iar limita


superioara este pozitiva inseamna ca intervalul provine dintr-o populatie in
care

nu este semnificativ

Testarea ipotezelor statistice

Un test statistic reprezinta un procedeu de verificare a unei ipoteze statistice.


Ipoteza statistica este ipoteza care se face cu privire la parametrii unei repartitii
(media si dispersia), sau la legea de repartitie pe care le urmeaza anumite
variabile. In statistica exista 2 ipoteze:
H0
: ipoteza nula, ce urmeaza a fi testata, ce presupune ca nu exista diferente
semnificative intre valorile comparate
H1
: ipoteza alternativa, care neaga sau contrazice

H0

In urma aplicarii ipotezei statistice apar 2 tipuri de erori:


- eroare de genul I, eroarea care se face eliminand ipoteza adevarata considerand
ca este falsa. Probabilitatea aparitiei se cheama risc si se noteaza
H0
- eroare de genul II, eroare pe care o facem acceptand
cand ea este falsa.
Probabilitatea comiterii se noteaza
Nivelul de incredere al unui test se noteaza 1- si reprezinta probabilitatea de
succes (sau de garantare). Regiunea critica reprezinta valorile tabelare ale unui
H0
test statistic pentru care
va fi respinsa (zona hasurata).
Etapele privind testarea ipotezei statistice:
1. se stabileste

H0

2. se stabileste

H1

3. se stabileste testul statistic ce va fi utilizat ca si criteriu de acceptare,


H0
refuzare
, precum si nivelul de semnificatie al testului
4. se determina indicele statistic din esantion
5. se determina valoarea calculata a testului statistic si se stabileste regiunea
critica
6. se desprind concluziile si anume
a. daca valoarea numerica a testului apartine regiunii critice atunci se
H0
respinge
b. daca valoarea numerica nu apartine regiunii critice atunci exista dovezi
H0
sa acceptam
Ipoteza

H1

poate avea una din forme daca se testeaza egalitatea parametrului

media colectivitatii generale cu o valoare prestabilita (ipotetica).


Vom nota cu = media colectivitatii generale (sau media populatiei)
0
= valoarea ipotetica (prestabilita)

= dispersia la nivelul populatiei

2
( x i x )

S=
2

n1

= dispersia la nivelul esantionului

= media esantionului

n = numarul de observatii
Pentru Rcritica
stanga : Tcalculat < Ttabelar
dreapta: Tcalculat > Ttabelar
Test bilateral
H0 : = 0
H1 : 0

Pentru Rcritica
dreapta: Tcalculat > Ttabelar

Pentru Rcritica
stanga: Tcalculat < Ttabelar

Test unilateral stanga


H0 : = 0
H1 : > 0

Test unilateral dreapta


H0 : = 0
H1 : < 0

Regiunea critica H0
Reg. de acceptare H0

Regiunea critica H0
Regiunea critica H0
Reg. de acceptare H0

=0
-

Regiunea
critica H0

=0

=0
+

Valoarea tabelara

Valoarea tabelara

Reg. de
acceptare
H0

+
Valoarea
tabelara

Testarea ipotezei privind media populatiei pentru esantioane de volum redus.


In activitatea practica foarte multe decizii se iau pe baza unor date limitate
(esantioane de volum mic, n <= 30 observatii). In acest caz se va utiliza pentru
testarea celor 3 ipoteze statistice:

Testul T = testul Student =

S=

x 0
S
n

( x i x )2
n1

Aplicatie- subiect de examen


Valoarea medie a unei locuinte aflate in apropierea unui colegiu este de 58950=(
0 unitati monetare. Se presupune ca valoarea locuintelor creste cu cat ele
sunt situate mai aproape de acest colegiu. Pentru a testa ipoteza s-au selectat
aleatoriu 12 locuinte din zona colegiului. In urma evaluarii acestora rezulta o

valoare modala de 62460 (Mo= x ) unitati monetare cu o abatere mediu patratica


de 5200 (=Sx) unitati monetare. Testati aceasta ipoteza cu un nivel al semnificatiei
=5%; n = 12, Ttabelar = 1,796
- etapa
- etapa
- etapa
0.05
- etapa

1
2
3

H0 : = 0 = 58950
H1 : > 0 > 58950
Deoarece n = 12 < 30 observatii => test unilateral dreapta? = 5% =

Sx = 5200
0 = 62460
x = Me = 62460 (serie perfect simetrica)

- etapa 5
- etapa 6

Tcalculat =

x 0 6246058950 3510
=
=
S
5200
5200
3,464
n
12

Tcalculat > Ttabelar (2,34 > 1,79)

Regiunea critica H0
Reg. de acceptare H0

= 2,34
=0
-

+
1,79
2,32

Rezulta ca pentru o probabilitate de 95% exista suficiente dovezi pentru a aprecia


ca valoarea locuintelor creste cu cat ele sunt mai aproape de acest colegiu
deoarece valoarea calculata se gaseste in regiunea critica (de respingere H0).
Aplicatie
Conducerea unei companii apeleaza la 5 experti pentru a previziona profitul
companiei in anul curent. Valorile previzionate, Xi : 2.60, 3.32, 1.80, 3.43, 2.00;
miliarde de lei. Stiind ca profitul companiei in anul anterior a fost de 2.01 milioane
de lei (=0), sunt suficiente dovezi pentru a concluziona ca media previziunilor
expertilor este diferita de cifra anului anterior, pentru o probabilitate de 95% ?
n=5, Ttabelar = 2.776
- etapa 1
- etapa 2
- etapa 3

H0 : = 0 = 2.01
H1 : 0 2.01
Deoarece n = 5 <= 30 => testul bilateral-, = 5% = 0.05

Regiunea critica H0
Regiunea critica H0
Reg. de acceptare H0

=0
-

+
-2.776

1.87

+2.776

- etapa 4

= 2.63
2

(x i x )2
n1
x 0
S
n

= 0.55 => S =

- etapa 5

Tcalculat =

- etapa 6

Tcalculat < Ttabelar (1.874 < 2.776)

S2

= 0.74

= 1.874

Rezulta ca pentru o probabilitate de 95% apreciem ca exista suficiente dovezi


pentru a a firma ca media profitului previzionata de cei 5 experti pentru anul
curent nu este diferita de valoarea anului trecut.

Testarea ipotezei privind media populatiei generale () pentru esantioane de


volum mare
In acest caz se vor utiliza esantioane de volum mare (n >= 30) avand la baza
utilizarea functiei Gauss-Laplace. Testarea ipotezei se face pe baza mediei
esantionului. Pentru a efectua testarea vom utiliza testul Z cu un nivel de
semnificatie prestabilit.

Zcalculat =

x 0
S
n

Teste bilateral
Pentru Rcritica
stanga : Zcalculat <
Ztabelar
dreapta: Zcalculat >
Ztabelar

Test unilateral dreapta


Pentru Rcritica
dreapta: Zcalculat >
Ztabelar

Test unilateral stanga


Pentru Rcritica
stanga : Zcalculat <
Ztabelar

Aplicatie
Patronul unei firma de prestari servicii doreste sa fluidizeze servirea. Pana in
prezent prezent presupune ca timpul mediu de servire este 130 min. (=0) si o
abatere de 15 min. El este de acord cu abaterea dar se indoieste de faptul ca
durata mediu de servire este de 130 min. Pentru a studiu problema se
inregistreaza timpii de servire pentru 100 clienti, cu timpul mediu de 100 min.
Poate patronul sa concluzioneze pentru o probabilitate de 99% ca timpul mediu
este diferit de 130 min ? Ztabelar = 2.57
-

etapa
etapa
etapa
etapa

1
2
3
4

H0 : = 0 = 130
H1 : 0 130
Deoarece n = 100 > 30 => test Z bilateral, = 1%
Regiunea critica H0
Regiunea critica H0
S = 15 min
Reg. de acceptare H0
x = 120 min
0 = 130 min
n = 100

- etapa 5

Zcalculat =

=0
x 0
S
n

-
-6.6

+
-2.57

+2.57

= -6.6

Rezulta ca pentru o probabilitate de 99% exista suficiente dovezi pentru a aprecia


ca timpul mediu de servire difera de 130 minute, deoarece valoarea calculata se
gaseste in regiunea critica.
Aplicatie
Un reporter se documenteaza pentru un articol privind costurile tot mai ridicate ale
educatiei in mediul superior. Pentru aceasta a luat in considerare costul unui
manual in semestrul in curs. In urma considerarii unui esantion de 41 manual a
gasit ca

xi

= 550.22 u.m. si

( xi x )2

= 1617.984

a) determinati media si abaterea mediei patratice a costului unui manual


b) testati ipoteaza conform careia valoarea media a unui manual este mai mica
decat (de aceea avem test unilateral stanga, pt ca este mai mica) 15 u.m.
pentru un nivel de semnificatie = 1%
- etapa 1
- etapa 2
- etapa 3
- etapa 4

H0 : = 0 = 15
H1 : < 15 < 0
Deoarece n = 41 > 30 => test Z unilateral stanga, = 1%
x = 13.42

( x i x )2

S=
2

- etapa 5

Zcalculat =

= 39.46 => S = 6.28

x 0
S
n

= -1.61

Rezulta ca pentru o probabilitate de 99% exista suficiente dovezi pentru care


valoarea medie nu este mai mica de 15 u.m. deoarece Zcalculat e in afara regiunii
critice

Regiunea
critica H0

+
-2.33

-1.61