Sunteți pe pagina 1din 14

CURS

De studiat:

1. Componentele unei serii cronologice: definiție, mod de calcul, interpretare


2. Determinarea trendului unei serii cronologice cu sezonalitate, desezonalitatea unei
serii cronologice.

Problema:
Despre exportul si importul RO se cunosc datele:

Exportul Importul
(mld Euro) (mld Euro)
10,36 11,38
11,38 14,35
14,67 17,42
15,61 19,56
18,93 24,25
22,25 30.06
a) Să se estimeze parametrii modelului simplu de regresie si să se determine
variabila reziduală (variabila eroare)
b) Să se valideze modelul de regresie pentru un nivel de semnificație de 5% F
critic=7,71 (Atentie, F crititc e acelasi cu F Tabelar)
c) Măsurați intensitatea legăturii directe dintre cele 2 variabile folosind un
indicator adecvat și testați semnificația acestuia pentru o probabilitate de 95%;
T critic=2,77
d) Să se testeze semnificația parametrilor și să se interpeeteze valorile; T
critic=2,77.

Regresie – ne spune daca exista sau nu legatura intre variabile

Corelația-se foloseste pentru a vedea cat de puternica este legatura intre doua variabile
si pentru a studia un model de regresie

Modelul de regresie are la baza 1 sau mai multe ecuatii- un model matematic care
exprima dependenta variabilelor complexe de un ansamblu de factori

Ecuatia de baza pentru un model unifactorial este y = f(x) + e

Y e variabila dependent, endogenă- depinde de 1 sau mai multi factori

f(x)- variabila independent- exogena

e- variabila reziduala

Ecuatia este la nivelul esantionului (care se extrage din populatie)


Este unifactorial deoarece are o variabila X

Aplicatie

Pentru un magazin se cunosc vanzarile de camasi barbatesti si profitul obtinut


pentru 8 zile consecutive

Nr. camasi Profitul


vandute (bucati)
3 30
4 42
1 10
6 62
1 12
2 30
2 21
5 28

a) Sa se stabileasca existenta, forma si directia dintre cele doua variabile.

Acest lucru se realizeaza cu metoda grafica (diagrama sau graficul de corelatie)

70
60
50
40
30
20
10
0

=> legatura directa (ambele variabile cresc sau scad in acelasi sens) si liniara

b) sa se determine modelul de regresie calculand valorile ajustate ale profitului in


functie de vanzare

Modelul de regresie se afla cu sistemul de ecuatii

^b0 = ∑ x i ∑ y i−∑ x i ∑ x i y i
2

{ n b^ o + b^ 1 ∑ x i=∑ y i
b^ o ∑ x i+ b^ 1 ∑ x 2i =∑ x i y i n ∑ x2i −(∑ x i )
2

n ∑ x i yi −∑ x i ∑ y i
b^ 1= 2
n ∑ x 2i −( ∑ x i)
b^ 0 = 5.75

b^ 1 =7.875 > 0 => legatura este directa si liniara- ambele variabile cresc si scad

in acelasi sens ; la cresterea numarului de camasi vandute cu 1 unitate, profitul


creste cu 7.875 unitati monetare in medie

Valorile ajustate se afla calculand ^y pentru fiecare variabila “nr. de camasi”

^y =b 0+ b1 x+ ei

Nr. camasi vandute Profitul ^y


(bucati) y
x

3 30 5.75 + 7.875 *
3=
4 42 5.75 + 7.875 *4

1 10 5.75 + 7.875 *1

6 62 5.75 + 7.875 *6

1 12 5.75 + 7.875 *1

2 30 5.75 + 7.875 *1

2 21 5.75 + 7.875 *1

5 28 5.75 + 7.875 *5

c) Sa se verifice semnificatia si validitatea modelului de regresie determinat la


punctul anterior folosind criteriul Fischer, adica testul F pentru un factor de
semnificatie alfa = 5%. Ftabelar = 5,99

Defapt aici ne intereseaza sa aflam F calculat in final, ca sa il comparam cu F


tabelar si sa determinam daca modelul e sau nu valid; probabilitatea de a fi sau nu
valid se detrimna scazand din 100% pe .
Ca pasi: calculam ý , apoi abaterile, apoi variantele, apoi nr gradelor de libertate,

dispersiile corectate si in final pe F calculat., ca sa il comparam cu F tabelar.

( y i− ý ) =( y i− ^y ) +(^y − ý)

( y i− ý ) – abatere totala (variatia neexplicata de modelul de regresie)

( y i− ^y ) – abatere reziduala

( ^y − ý ) – abatere sistematica (variatia explicate demodelul de regresie)

yi
ý=∑ = 29,374 – nivelul mediu al profitului
n

Pe baza abaterilor se calculeaza indicatorii


- variante -> suma patratelor

- varianța totală: Δ 2y =∑ ( y i− ý )2

2 2
- varianța reziduală: Δ e =∑ ( yi − ^y )

- varianta sistematica: Δ 2y/ x =∑ ( ^y − ý )2

- numarul gradelor de libertate


- k = 1 -> pentru varianta sistemica, nr variabilelor independente (k = 1 pt.
ca avem un singur x)
- n – k – 1 -> pentru varianta reziduala
- n – 1 -> pentru varianta totala
- dispersiile corectate

S 2 Δ
2
= y /x =
∑ ( ^y − ý ) 2

- y /x
k k

S=
2Δ 2e
=
∑ ( y i− ^y )2
- e
n−k−1 n−k−1

S 2
=
∑ ( y i− ý )2 S y/ x
y
n−1 - Fcalculat = S e ->
2

{FcalculatFcalculat
≤ Ftabelar=¿ modelul nu e valid si var . x nu influenteaza semnif . var . y
> Ftabelar=¿ modelul e valid ,iar x influenteaza var . y Ipoteze:

H0
- ipoteza nula -> modelul nu este valid din punct de vedere statistic

- ipoteza alternativa
H1
= not
H0
-> modelul este valid  S 2y / x ≠ S 2e
Sursa variatiei Suma Nr. gradelor de Media Fcalculat
patratelor calc. libertate patratelor
cu ajut.
variantelor
Din interiorul Δ 2y/ x k=1 S 2y / x S 2y/ x
grupelor S 2e
explicata de
model
Dintre grupe Δ 2e n–k–1=6 S 2e S 2y/ x
S 2e

Total Δ 2y n–1=7 S 2y S 2y/ x


S 2e

2
( y i− ý ) ( y i− ^y )2 ( ^y − ý )2

0.39 52.56 62.02


159.39 805.14 185.64
375.39 1849.00 2809.00
1064.39 2340.14 185.64
301.89 90.25 462.25
0.39 72.25 462.25
70.14 582.02 2036.27
1.89 495.06 33.06

Fcalculat > Ftabelar si concluzia: pentru o probabilitate de 95% (100 – α) exista


suficiente dovezi pentru a afirma ca modelul este valid d.p.d.v. statistic, iar
variabila “nr. camasi vandute” are o influenta semnificativa asupra variabilei
“profit”.

d) Sa se masoare intensitatea legaturii dintre variabile folosind coeficientul de


corelatie liniara, testati semnificatia acestuia pentru un nivel de semnificatie de
=5%. Ttabelar = 2,74- Asta nu e musai dar nu strică să aruncați o privire

n ∑ x i y i−∑ x i ∑ y i
r y / x=
[ n ∑ x −(∑ x ) ][n ∑ y −(∑ y ) ]
2
i i
2 2
i i
2

S
r y / x =b^ 1= x
Sy
Sx =
√∑ ( xi −x́)2
n−1
– abaterea standard a variabilei “x”

S y=
√ ∑ ( y i −ý)2
n−1
– abaterea standard a variabilei “y”

{
∈ [ 0, 0.5 ] →legatura puternica
r y /x ∈ [ 0.5, 0.75 ] → legatura slaba
= 0,86;
∈ [ 0.75,1 ] →legatura de intensitate medie

semnul pantei b^ 1 ne da semnul lui r; dc e negativ trecem direct – in fata lui r

Testarea semnificatiei coeficientului de corelatie se face cu testul Student (testul T)


cand avem un esantion redus, altfel se face cu testul Z sau Laplace.

Ipoteze:
H 0 : r=0 H 1 :r ≠ 0

r y/ x √ n−2
Tcalculat = test Student = =4.28
√1−r 2
y/ x

Tcalculat > Ttabelar => pentru o probabilitate de 95% (100 – α) exista suficiente
dovezi pentru a aprecia ca coeficientul de corelatie liniara este semnificativ, adica
exista suficiente dovezi pentru a respinge ipoteza nula.

e) Sa se masoare intensitatea legaturilor dintre cele doua variable prin raportul de


corelatie; sa se testeze semnificatia acestuia pentru α=5%; sa se arate ce pondere
din variatia totala a profitului este explicata de influenta numarului de camasi
vandute. Ftabelar = 5,99

R y / x=
√ 1−
∑ ( y i− ^y )2
∑ ( y i− ý )2
=
√ √∆ 2e
1− 2 =
∆y
∑ ( ^y − ý )2 =
∑ ( y i− ý )2 √ ∆2y /x
∆ 2y = 0,85 => regresia e liniara =>

leg. puternica

Ponderea din variatia totala se calculeaza cu:

Aici nu cred ca e cu 1-
2
2 ∆
R y /x =1− 2e = 0,74 => 74% din variatia profitului este explicata de influenta
∆y

numarului de camasi, iar 26% este influenta exercitata de alti factori considerati cu
actiune constanta, neinclusi in modelul de regresie

Testarea semnificatiei se realizeaza cu ajutorul criteriului Fischer, adica testul F.


H0
: R = 0 -> nesemnificativ
H1
: R ≠ 0 -> semnificativ

n−k −1 2
∗R
k
Fcalculat = = 17,07
1−R2

Ftabelar = 5,99
Fcalculat > Ftabelar => pentru o probabilitate de 95% (100 – α) exista suficiente
dovezi ca raportul de corelatie este semnificativ statistic (H1)

f) Sa se determine intervalul de incredere pentru un nivel de semnificatie de 5%,


Ttabelar = 2,24- Nici asta nu trebuie neapărat, dar poate aruncați o privire

b^ 1−t tabelar Sb 1 ≤ β ≤ b^ 1+t tabelar S b 1 - trebuie sa aflam: pe Sb1 si pe Se ca sa le inlocuim in

formula

b1 l-am aflat in ecuatia de regresie

Se
S b 1=
– deviatia standard (abaterea medie)
√∑ (x − x́ )
i
2

Se=
∆2e
n−k −1 √ ; pe ∆ 2e l-am aflat mai sus

Trebuie sa calculam X mediu; este egal cu suma din nr de camasi vandute/numarul


de camasi; adica (3+4+1+6+1+2+2+5)/8=24/8=3

Apoi calculam (xi- x́ ) ca sa aflam suma care ne trebuie in formula de mai jos

x -nr ( xi−x́ )2
de
camasi
( 3−3 )2
3
( 4−3 )2
4
( 1−3 )2
1
( 6−3 )2
6
( 1−3 )2
1
( 2−3 )2
2
( 2−3 )2
2
( 5−3 )2
5

Se
S b 1=
– deviatia standard (abaterea medie)
√∑ (x − x́ )i
2

Se=

∆2e
n−k −1
= 8,99 => S b 1 = 4,89

7,87 – 2,44 * 4,89 ≤β ≤ 7,87 + 2,44 * 4,89

Datorita faptului ca limita inferioara a intervalului este negativa iar limita


superioara este pozitiva inseamna ca intervalul β provine dintr-o populatie in care
β nu este semnificativ.

b^ 0 −t calculat S b 0 ≤ α ≤ b^ 0+t calculat S b 0

S b 0=S e
√ ∑ x 2i
n ∑ (xi −x́)2 = 6,357

5,75 – 4,28 * 6,357 ≤α≤ 5,75 + 4,28 * 6,357

Datorita faptului ca limita inferioara a intervalului este negativa iar limita


superioara este pozitiva inseamna ca intervalul α provine dintr-o populatie in

care α nu este semnificativ

Testarea ipotezelor statistice


Un test statistic reprezinta un procedeu de verificare a unei ipoteze statistice.
Ipoteza statistica este ipoteza care se face cu privire la parametrii unei repartitii
(media si dispersia), sau la legea de repartitie pe care le urmeaza anumite
variabile. In statistica exista 2 ipoteze:
H0
- : ipoteza nula, ce urmeaza a fi testata, ce presupune ca nu exista diferente
semnificative intre valorile comparate
H1 H0
- : ipoteza alternativa, care neaga sau contrazice

In urma aplicarii ipotezei statistice apar 2 tipuri de erori:


- eroare de genul I, eroarea care se face eliminand ipoteza adevarata considerand
ca este falsa. Probabilitatea aparitiei se cheama risc si se noteaza α
H0
- eroare de genul II, eroare pe care o facem acceptand cand ea este falsa.
Probabilitatea comiterii se noteaza β

Nivelul de incredere al unui test se noteaza 1-α si reprezinta probabilitatea de


succes (sau de garantare). Regiunea critica reprezinta valorile tabelare ale unui
H0
test statistic pentru care va fi respinsa (zona hasurata).

Etapele privind testarea ipotezei statistice:

H0
1. se stabileste
H1
2. se stabileste
3. se stabileste testul statistic ce va fi utilizat ca si criteriu de acceptare,
H0
refuzare , precum si nivelul de semnificatie al testului
4. se determina indicele statistic din esantion
5. se determina valoarea calculata a testului statistic si se stabileste regiunea
critica
6. se desprind concluziile si anume
a. daca valoarea numerica a testului apartine regiunii critice atunci se
H0
respinge
b. daca valoarea numerica nu apartine regiunii critice atunci exista dovezi
H0
sa acceptam

H1
Ipoteza poate avea una din forme daca se testeaza egalitatea parametrului
“media colectivitatii generale” cu o valoare prestabilita (ipotetica).

Vom nota cu μ = media colectivitatii generale (sau media populatiei)


μ0
= valoarea ipotetica (prestabilita)
2
σ = dispersia la nivelul populatiei
2
S=
∑ ( x i− x́ )
2
n−1 = dispersia la nivelul esantionului

x́ = media esantionului
n = numarul de observatii

Pentru Rcritica Pentru Rcritica Pentru Rcritica


stanga : Tcalculat < Ttabelar dreapta: Tcalculat > Ttabelar stanga: Tcalculat < Ttabelar
dreapta: Tcalculat > Ttabelar
Test unilateral stanga Test unilateral dreapta
Test bilateral H0 : μ = μ0 H0 : μ = μ0
H0 : μ = μ0 H1 : μ > μ0 H1 : μ < μ0
H1 : μ ≠ μ0

Regiunea critica H0 Regiunea critica H0


Regiunea critica H0
Reg. de acceptare H0 Reg. de acceptare H0 Reg. de
Regiunea
acceptare
critica H0
H0

μ=0 μ=0 μ=0

-∞ +∞ -∞ +∞ -∞ +∞
Valoarea
Valoarea tabelara Valoarea tabelara
tabelara

Testarea ipotezei privind media populatiei μ pentru esantioane de volum redus.

In activitatea practica foarte multe decizii se iau pe baza unor date limitate
(esantioane de volum mic, n <= 30 observatii). In acest caz se va utiliza pentru
testarea celor 3 ipoteze statistice:

x́−μ 0
Testul T = testul Student = S
√n

S=
√ ∑ ( x i− x́ )2
n−1

Aplicatie- subiect de examen

Valoarea medie a unei locuinte aflate in apropierea unui colegiu este de 58950=(
μ´0 ¿ unitati monetare. Se presupune ca valoarea locuintelor creste cu cat ele

sunt situate mai aproape de acest colegiu. Pentru a testa ipoteza s-au selectat
aleatoriu 12 locuinte din zona colegiului. In urma evaluarii acestora rezulta o
valoare modala de 62460 (Mo= x́ ) unitati monetare cu o abatere mediu patratica
de 5200 (=Sx) unitati monetare. Testati aceasta ipoteza cu un nivel al semnificatiei
α=5%; n = 12, Ttabelar = 1,796

- etapa 1 H0 : μ = μ0 = 58950
- etapa 2 H1 : μ > μ0 > 58950
- etapa 3 Deoarece n = 12 < 30 observatii => test unilateral dreapta?α = 5% =
0.05
- etapa 4 Sx = 5200
μ0 = 62460
x́ = Me = 62460 (serie perfect simetrica)
Regiunea critica H0
x́−μ 0 62460−58950 3510 Reg. de acceptare H0
= =
- etapa 5 Tcalculat = S 5200 5200 = 2,34
√n √ 12 3,464
μ=0
- etapa 6 Tcalculat > Ttabelar (2,34 > 1,79) -∞ +∞
1,79

2,32

Rezulta ca pentru o probabilitate de 95% exista suficiente dovezi pentru a aprecia


ca valoarea locuintelor creste cu cat ele sunt mai aproape de acest colegiu
deoarece valoarea calculata se gaseste in regiunea critica (de respingere H0).

Aplicatie

Conducerea unei companii apeleaza la 5 experti pentru a previziona profitul


companiei in anul curent. Valorile previzionate, Xi : 2.60, 3.32, 1.80, 3.43, 2.00;
miliarde de lei. Stiind ca profitul companiei in anul anterior a fost de 2.01 milioane
de lei (=μ0), sunt suficiente dovezi pentru a concluziona ca media previziunilor
expertilor este diferita de cifra anului anterior, pentru o probabilitate de 95% ?
n=5, Ttabelar = 2.776

- etapa 1 H0 : μ = μ0 = 2.01
- etapa 2 H1 : μ ≠ μ0 ≠ 2.01
- etapa 3 Deoarece n = 5 <= 30 => testul bilateral-, α = 5% = 0.05

Regiunea critica H0 Regiunea critica H0


Reg. de acceptare H0

μ=0
-∞ +∞
-2.776 1.87 +2.776
- etapa 4 x́ = 2.63

S
2 ∑ (x i− x́)2 √S2
= n−1 = 0.55 => S = = 0.74

x−μ 0
- etapa 5 Tcalculat = S = 1.874
√n
- etapa 6 Tcalculat < Ttabelar (1.874 < 2.776)

Rezulta ca pentru o probabilitate de 95% apreciem ca exista suficiente dovezi


pentru a a firma ca media profitului previzionata de cei 5 experti pentru anul
curent nu este diferita de valoarea anului trecut.

Testarea ipotezei privind media populatiei generale (μ) pentru esantioane de


volum mare

In acest caz se vor utiliza esantioane de volum mare (n >= 30) avand la baza
utilizarea functiei Gauss-Laplace. Testarea ipotezei se face pe baza mediei
esantionului. Pentru a efectua testarea vom utiliza testul Z cu un nivel de
semnificatie α prestabilit.

x−μ 0
Zcalculat = S
√n

Teste bilateral Test unilateral dreapta Test unilateral stanga

Pentru Rcritica Pentru Rcritica Pentru Rcritica


stanga : Zcalculat < dreapta: Zcalculat > stanga : Zcalculat <
Ztabelar Ztabelar Ztabelar
dreapta: Zcalculat >
Ztabelar
Aplicatie

Patronul unei firma de prestari servicii doreste sa fluidizeze servirea. Pana in


prezent prezent presupune ca timpul mediu de servire este 130 min. (=μ0) si o
abatere de 15 min. El este de acord cu abaterea dar se indoieste de faptul ca
durata mediu de servire este de 130 min. Pentru a studiu problema se
inregistreaza timpii de servire pentru 100 clienti, cu timpul mediu de 100 min.
Poate patronul sa concluzioneze pentru o probabilitate de 99% ca timpul mediu
este diferit de 130 min ? Ztabelar = 2.57

- etapa 1 H0 : μ = μ0 = 130
- etapa 2 H1 : μ ≠ μ0 ≠ 130
- etapa 3 Deoarece n = 100 > 30 => test Z bilateral, α = 1%
Regiunea critica H0
- etapa 4 S = 15 min Regiunea critica H0
Reg. de acceptare H0
x́ = 120 min

μ0 = 130 min μ=0


n = 100
-∞ +∞
x́−μ 0
-6.6 -2.57 +2.57
- etapa 5 Zcalculat = S = -6.6
√n

Rezulta ca pentru o probabilitate de 99% exista suficiente dovezi pentru a aprecia


ca timpul mediu de servire difera de 130 minute, deoarece valoarea calculata se
gaseste in regiunea critica.

Aplicatie

Un reporter se documenteaza pentru un articol privind costurile tot mai ridicate ale
educatiei in mediul superior. Pentru aceasta a luat in considerare costul unui
manual in semestrul in curs. In urma considerarii unui esantion de 41 manual a

gasit ca ∑ xi = 550.22 u.m. si ∑ ( xi − x́)2 = 1617.984

a) determinati media si abaterea mediei patratice a costului unui manual

b) testati ipoteaza conform careia valoarea media a unui manual este mai mica
decat – (de aceea avem test unilateral stanga, pt ca este mai mica) 15 u.m.
pentru un nivel de semnificatie α = 1%

- etapa 1 H0 : μ = μ0 = 15
- etapa 2 H1 : μ < 15 < μ0
- etapa 3 Deoarece n = 41 > 30 => test Z unilateral stanga, α = 1%
- etapa 4 x́ = 13.42
2
S=
∑ ( x i− x́ )2
n = 39.46 => S = 6.28

x−μ 0
- etapa 5 Zcalculat = S = -1.61
√n

Rezulta ca pentru o probabilitate de 99% exista suficiente dovezi pentru care


valoarea medie nu este mai mica de 15 u.m. deoarece Zcalculat e in afara regiunii
critice

Regiunea
critica H0

-∞ +∞
-2.33 -1.61

S-ar putea să vă placă și