Sunteți pe pagina 1din 38

Statistică în Excel

pentru Evaluatori

Conf. univ. dr. Costel Ionașcu


Statistica – Punerea problemei

Populație - conține
N apartamente
Apartament Caracteristica apartament Variabila
Pret apartament Y
Locatia (distanta fata de centru -km) X1
Etaj X2
Nr etaje X3
An constructie X4
Suprafata utila (m2) X5
Nr camere X6
Decomandat X7
Eșantion - conține n apartamente Nr bai X8
Finisaj X9
Locatia
Pret (distanta Sistem de incalzire X10
Nr An Suprafata Nr Nr Sistem de
apartament fata de etaj Decomandat Finisaj
etaje constructie utila (m2) camere bai incalzire
(EUR) centru-
km)
39000 2.80 4 4 1980 30 1 0 1 0 0
42000 2.60 4 4 1980 36 1 1 1 0 0
43800 2.40 10 10 1972 50 2 0 1 0 0
44500 2.30 4 4 1974 40 2 1 1 0 0
45500 3.02 1 4 2008 37 1 2 1 0 0
46000 1.85 4 4 1984 40 1 0 1 0 0
Tipuri de Variabile

dupa posibilitatea de a
dupa posibilitatea de a ordona dupa numarul de valori
dupa continut dupa tipul de valori numara elementele din
valorile posibil
multimea de valori

Atributive Cantitative Intotdeauna ordonabile Discrete Finit

Infinit

Continue Infinit

Calitative Nominale (neordonabile) Discrete Multinomiala (finit)

Binomiala (doar 2 valori)

Ordinale (ordonabile) Discrete Finit

de Timp ordine fixata, cronologica

de Spatiu pozitie fixata, spatial (geographic)


Tipuri de Scale
a) Scala nominală – valorile determinate cu ajutorul acestei scale permit doar gruparea elementelor dintr-o mulțime
în categorii.
Pe baza valorilor astfel determinate nu se pot realiza ierarhii între categoriile definite!
Ex: localitatea, sistem de incalzire (IC, CP), materialul de constructie (beton armat, caramida, BCA…)

b) Scala ordinală – valorile determinate cu ajutorul său permit realizarea de ierarhii.


Scala ordinală nu permite determinarea cu exactitate a distanţei dintre două valori!
Ex: finisaj (inferior, standard, superior)

c) Scala Interval – valorile determinate cu ajutorul său pot fi utilizate în calculul proporţiilor pentru intervale determinate
între valoarea 0 (origine) pe scală şi acestea.
Ex: anul constructiei

d) Scala proporţională (de raport) – este cel mai complet tip de scală, valorile determinate cu ajutorul ei putând fi
utilizate pentru toate tipurile de operaţii artimetice. În cazul acestei scale, valoarea 0 este 0 absolut şi
înseamnă absenţa fenomenului studiat.
Ex: suprafata utila, nr camere
Tipuri de Variabile => Tipuri de serii statistice
atributive
serie de distribuţie după
cantitative intervale de variaţie
continue
serie de distribuţie după
discrete variante sau intervale de
variaţie
calitative
nominale
serie de distribuţie după
Variabile de timp ordinale variante

serie cronologică
momente de timp de momente

serie cronologică
intervale de timp de de intervale

de spaţiu serie de spaţiu


Grafica seriilor de distribuţie
A.Histograma Nr
B.Poligonul frecvenţelor Pret apartament (EUR) Limite intervale apartamente
39000 51200 11
C.Curba frecvenţelor cumulate (Ogiva) 51200 63400 20
63400 75600 13
75600 87800 2
87800 100000 4
Total 50

Nr Nr Nr camere Pret apartament (EUR)


camere apartamente 30 25

1 4
2 27
25 20
3 15
4 4
Total 50 20
15

15

10

10

5
5

0
0 51200 63400 75600 87800 100000
1 2 3 4
39000 51200 63400 75600 87800
Grafica seriilor de distribuţie
A.Histograma
B.Poligonul frecvenţelor
C.Curba frecvenţelor cumulate (Ogiva)

Nr Pret apartament (EUR)


Pret apartament (EUR) Limite intervale apartamente
25
39000 51200 11
51200 63400 20
63400 75600 13
75600 87800 2 20
87800 100000 4
Total 50

15

10

0
51200 63400 75600 87800 100000
39000 51200 63400 75600 87800
Indicatorii tendintei centrale

1- Modul
2- Cuantilele
- Mediana
- Cuartilele
- Decilele
- Percentilele
3- Media
Modul (Dominanta)
Definiţie: reprezintă acea valoare a caracteristicii care are frecvenţa cea mai mare.
• Este specifică seriilor de distribuţie:
=MODE.SNGL(Exemplu!A2:A51)

Nr
Nr camere
camere Nr apartamente
30
1 4
2 27
3 15 25
4 4
Total 50
20

15

10

0
1 2 3 4
Cuantilele
Definiţie: reprezintă indicatori de poziție care ne permit împărțirea unei serii de distribuție cu valorile ordonate (crescator, de
obicei) într-un anumit număr de părți egale.
Tipuri

•Mediana - permite împărțirea unei serii în 2 părți egale (notatie: Me). Ex: Me=58000 eur =MEDIAN(Exemplu!A2:A51)
•Cuartilele - permit împărțirea unei serii în 4 părți egale. Sunt în număr de 3 (notatie: Q1,Q2,Q3).
Ex: Q1=51200 eur; Q2=58000 eur; Q3=65750 eur =QUARTILE.INC(Exemplu!A2:A51,1)

•Decilele – permit împărțirea unei serii în 10 părți egale. Sunt în număr de 9 (notatie: D1,…,D9).

•Percentilele – permit împărțirea unei serii în 100 părți egale. Sunt în număr de 99 (notatie: P1,…,P99).
=PERCENTILE.INC(Exemplu!A2:A51,0.1)
39000 51200 58000 65750 100000

xmin 25% 25% xmax


Q1 Q2 25% Q3 25%

50% Me 50%

D5
P25 P50 P75
Media aritmetică – tipuri, relaţii de calcul
Tipuri:
-simplă - se utilizează în situaţia în care valorile variabilei studiate
nu se repetă
-ponderată - se utilizează în situaţia în care cel puţin o valoare a variabilei studiate
se repetă

Relaţie de calcul:
-simplă - ponderată
n n

x i x f i i
x= i =1
x= i =1
n

f
n
i
i =1
Prețul mediu al unui apartament

39000+42000+⋯+100000 3009800
𝑥lj = = = 60196 eur =AVERAGE(Exemplu!A2:A51)
50 50
Indicatorii Variatiei

1- Indicatori simpli
- Amplitudinea
2- Indicatori sintetici
- Dispersia
- Abaterea standard
- Coeficientul de variatie
Indicatorii variaţiei

• simpli

– Amplitudinea variaţiei

» absolută: Aa = xmax − xmin =MAX(Exemplu!A2:A51)-MIN(Exemplu!A2:A51)

xmax − xmin
» relativă: Ar = 100
x

Nr 𝐴𝑎 = 100000 − 39000 = 61000 𝑒𝑢𝑟


Pret apartament (EUR) Limite intervale apartamente
39000 51200 11
51200 63400 20
63400 75600 13 61000
75600 87800 2 𝐴𝑟 = ⋅ 100 = 101.34%
60196
87800 100000 4
Total 50
Indicatorii variaţiei
• sintetici
n
 (xi − x )
– Dispersia
2

» simplă:  = 2 i =1 =VAR.S(Exemplu!A2:A51)
n
n
 (xi − x ) 2
fi
» ponderată:  =
2 i =1
n
 fi
i =1
Indicatorii variaţiei
• sintetici (continuare)

– Abaterea standard (abaterea medie pătratică)

n
 (xi − x ) 2

» simplă:
= i =1
=  2 =STDEV.S(Exemplu!A2:A51)
n
n
 (xi − x ) 2
fi
» ponderată:
= i =1
n
=  2

 fi
i =1
Indicatorii variaţiei
• sintetici (continuare)

– Coeficientul de variaţie


v=  100
x

v  30 % – gradul de semnificaţie al indicatorilor medii este ridicat

v  30 % – gradul de semnificaţie al indicatorilor medii este scăzut


Corelatia
1- Notiune
2- Tipuri
3- Analiza grafica
Corelația - intuitie
112000

102000

92000

82000
(Y) Pret apartament (eur)

72000

62000

52000

42000

32000

22000
20 30 40 50 60 70 80 90 100 110

(X) Suprafata utila (m2)


Corelația – Tipuri. Analiza grafica
Locatia (distanta fata de centru) Suprafata utila (m2) etaj
120000 120000 120000

100000 100000 100000

80000 80000 80000

60000 60000 60000

40000 40000 40000

20000 20000 20000

0 0 0
0.00 0.50 1.00 1.50 2.00 2.50 3.00 3.50 0 20 40 60 80 100 120 0 2 4 6 8 10 12

An constructie Nr camere Decomandat


120000 120000 120000

100000 100000 100000

80000 80000 80000

60000 60000 60000

40000 40000 40000

20000 20000 20000

0 0 0
1960 1970 1980 1990 2000 2010 0 1 2 3 4 5 0 0.5 1 1.5 2 2.5
Corelația – Tipuri. Analiza grafica
112000 120000

102000
100000

(Y) Pret apartament (eur)


(Y) Pret apartament (eur)

92000

82000 80000

72000
60000
62000

52000 40000

42000
20000
32000

22000 0
0.00 0.50 1.00 1.50 2.00 2.50 3.00 3.50
20 40 60 80 100 120
(X) Locatia (distanta fata de centru)
(X) Suprafata utila (m2)

Liniara, directa Neliniara, inversa

Caracteristici posibil de determinat din grafic


1. Existenta
2. Forma
3. Sensul
4. Intensitatea
Intensitatea corelatiei
Corelatie liniara simpla

𝒏 ∙ σ 𝒙𝒚 − σ 𝒙 σ 𝒚
Coeficient de corelatie liniara 𝒓𝒙𝒚 = −𝟏 ≤ 𝒓𝒙𝒚 ≤ 𝟏
(Pearson) 𝒏∙ σ 𝒙𝟐 − σ𝒙 𝟐 𝒏∙ σ 𝒚𝟐 − σ𝒚 𝟐

=CORREL(Exemplu!A2:A51,Exemplu!F2:F51)

Corelatie liniara sau neliniara,


simpla sau multipla

σ𝒊 𝒚
ෝ𝒊 − 𝒚
ഥ 𝟐
𝑺𝑺𝑹
Coeficient de determinatie 𝑹𝟐 = 𝟐 = 𝟎 ≤ 𝑹𝟐 ≤ 𝟏
σ𝒊 𝒚𝒊 − 𝒚
ഥ 𝑺𝑺𝑻

Raport de corelatie 𝑹= 𝑹𝟐 𝟎≤𝑹≤𝟏


Regresia
1- Definire
2- Tipuri
3- regresia liniara simpla
- Determinarea coeficientilor modelului
- Testarea modelului de regresie
- Calitatea modelului de regresie
- Predictia cu ajutorul modelului de regresie
Regresia - intuitie

X
-15o +15o

-15o
Y Modelul determinist = model perfect

+15o
-25o ..-5 o
X
-15o +15o

Y Modelul econometric = model care include erori

+5o ..+25 o
𝒚𝒊 = 𝒃𝟎 + 𝒃𝟏 ⋅ 𝒙𝒊 + 𝒆
(𝒙𝒊 , 𝒚𝒊 )
𝑦𝑖 ෝ𝒊 = 𝒃𝟎 + 𝒃𝟏 ⋅ 𝒙𝒊
𝒚
𝑒𝑖


𝒚

𝒃𝟏

𝒃𝟎

𝑥1 𝑥1 + 1 𝑥ҧ 𝑥𝑖
Regresia – liniara simpla
Specificarea econometrică a modelului

Populație - conține N apartamente


Ecuația reală a modelului la nivelul populatiei:
𝒚𝒊 = 𝑬 𝒀 𝒙𝒊 + 𝜀𝑖
𝒚𝒊 = 𝜷𝟎 + 𝜷𝟏 ⋅ 𝒙𝒊 + 𝜺𝒊 𝑖 = 1,2 … 𝑁
ෝ𝒊 = 𝐸 𝑌 𝑥𝑖 = 𝛽0 + 𝛽1 ⋅ 𝑥𝑖
𝒚
𝜺𝒊 = 𝑦𝑖 − 𝐸 𝑌 𝑥𝑖 = 𝑦𝑖 − 𝑦ො𝑖

Eșantion - conține n apartamente


Ecuația modelului estimată pe baza unui eșantion
unde:
𝑦𝑖 = 𝑏0 + 𝑏1 ⋅ 𝑥𝑖 + 𝑒𝑖 𝑖 = 1,2 … 𝑛
ෝ𝒊
𝒚 - estimația lui 𝒚𝒊
𝑦ො𝑖 = 𝑏0 + 𝑏1 ⋅ 𝑥𝑖 b0 - estimatorul lui 𝜷𝟎
Exemplu
b1 - estimatorul lui 𝜷𝟏
𝑒𝑖 = 𝑦𝑖 − 𝑦ො𝑖 = 𝑦𝑖 − 𝑏0 − 𝑏1 ⋅ 𝑥𝑖
𝒆𝒊 - estimația lui 𝜺𝒊
n - volumul eșantionului
Determinarea coeficienților de regresie folosind Metoda Celor Mai Mici Pătrate Ordinare
(CMMPO)

𝑒𝑖 = 𝑦𝑖 − 𝑏0 − 𝑏1 ⋅ 𝑥𝑖 𝑛

F(𝑏0 , 𝑏1 ) = min ෍ 𝑦𝑖 − 𝑏0 − 𝑏1 ⋅ 𝑥𝑖 2
𝑛 𝑛

෍ 𝑒𝑖2 = ෍ 𝑦𝑖 − 𝑏0 − 𝑏1 ⋅ 𝑥𝑖 2 𝑖=1

𝑖=1 𝑖=1

𝑛 𝑛

𝑏0 ⋅ 𝑛 + 𝑏1 ⋅ ෍ 𝑥𝑖 = ෍ 𝑦𝑖
𝑖=1 𝑖=1
𝑛 𝑛 𝑛

𝑏0 ⋅ ෍ 𝑥𝑖 + 𝑏1 ⋅ ෍ 𝑥𝑖2 = ෍ 𝑥𝑖 ⋅ 𝑦𝑖
𝑖=1 𝑖=1 𝑖=1

𝑛 𝑛 𝑛 𝑛

𝑛 ෍ 𝑥𝑖 ෍ 𝑦𝑖 ෍ 𝑥𝑖 𝑛 ෍ 𝑦𝑖
𝑖=1 𝑖=1 𝑖=1 Δ𝑏0 Δ𝑏1
Δ= 𝑖=1 Δb0 = 𝑛 𝑛
Δ𝑏1 = 𝑛 𝑛 𝑏0 = 𝑏1 =
𝑛 𝑛 Δ Δ
෍ 𝑥𝑖 ෍ 𝑥𝑖2 ෍ 𝑥𝑖 ⋅ 𝑦𝑖 ෍ 𝑥𝑖2 ෍ 𝑥𝑖 ෍ 𝑥𝑖 ⋅ 𝑦𝑖
𝑖=1 𝑖=1 𝑖=1 𝑖=1 𝑖=1 𝑖=1
Analiza surselor de variatie (ANOVA) – Analiza grafica

𝒚𝒊 = 𝒃𝟎 + 𝒃𝟏 ⋅ 𝒙𝒊 + 𝒆
(𝒙𝒊 , 𝒚𝒊 )
𝒚𝒊

ෝ𝒊
𝒚𝒊 − 𝒚 𝑒𝑖 ෝ𝒊 = 𝒃𝟎 + 𝒃𝟏 ⋅ 𝒙𝒊
𝒚

𝒚𝒊 − 𝒚
ෝ𝒊
𝒚

𝐲ො𝒊 − 𝒚

𝒚
𝑥𝑖 − 𝑥ҧ

𝑥ҧ 𝑥𝑖
Analiza surselor de variație (ANOVA)

Sursa variației Suma pătratelor (SS) Grade de Pătratul mediu


libertate (MS)
σ𝑖 𝑦ො𝑖 − 𝑦ത 2
Explicată 2 1
෍ 𝑦ො𝑖 − 𝑦ത
(SSR) 𝑖
1
σ𝑖 𝑦𝑖 − 𝑦ො𝑖 2
Reziduală 2 n-2
෍ 𝑦𝑖 − 𝑦ො𝑖
(SSE) 𝑖
𝑛−2
σ𝑖 𝑦𝑖 − 𝑦ത 2
Totală 2 n-1
෍ 𝑦𝑖 − 𝑦ത
(SST) 𝑖
𝑛−1

𝑺𝑺𝑹 + 𝑺𝑺𝑬 = 𝑺𝑺𝑻


Regresia – liniara simpla – Ipoteze statistice

Populație - conține N apartamente


Ecuația reală a modelului la nivelul populatiei:
ෝ𝒊 = 𝛽0 + 𝛽1 ⋅ 𝑥𝑖
𝒚 𝒚𝒊 = 𝜷𝟎 + 𝜷𝟏 ⋅ 𝒙𝒊 + 𝜺𝒊

Eșantion - conține n apartamente


Ecuația modelului estimată pe baza unui eșantion
𝑦ො𝑖 = 𝑏0 + 𝑏1 ⋅ 𝑥𝑖 𝑦𝑖 = 𝑏0 + 𝑏1 ⋅ 𝑥𝑖 + 𝑒𝑖

Exemplu
Testarea ipotezelor statistice
Procedura de testare statistică este comparabilă cu cea a procesului penal; un inculpat este considerat nevinovat atâta timp cât vinovăția
lui nu este dovedită. Procurorul încearcă să dovedească vinovăția inculpatului. Doar atunci când există suficiente dovezi pentru
condamnare, inculpatul este condamnat.

La începutul procedurii, există două ipoteze:


H0: "inculpatul nu este vinovat„ și H1: "inculpatul este vinovat".
Prima, H0, este numită ipoteza nulă și este acceptată pentru moment.
A doua, H1, este numită ipoteza alternativă și este cea pe care o sperăm să o dovedim.

Ipoteza nevinovăției este respinsă numai atunci când o eroare este foarte puțin probabilă, deoarece nu se dorește condamnarea unui
inculpat nevinovat. O astfel de eroare se numește eroare de tip I (ex: condamnarea unei persoane nevinovate), iar apariția acestei erori
este controlată pentru a fi rară.
Ca o consecință a acestui comportament asimetric, este mai frecventă apariția unei erori de tipul II (achitarea unei persoane care a comis
infracțiunea).

Realitatea H0 adevărată H1 este adevărată


Decizia (Inculpatul este nevinovat) (Inculpatul este vinovat)
Decizie greșită
Se acceptă ipoteza nulă H0 Decizie corectă
(eroare de tip II)
(Achitare inculpat) 1-a - Nivel de încredere
b
Decizie greșită
Se respinge ipoteza nulă H0 Decizie corectă
(eroare de tip I)
(Condamnare inculpat) 1−b – Puterea testului
a
Regresia – Testarea ipotezelor cu privire la coeficientii modelului

1. Testul F
H0: 𝜷𝟎 =𝟎 𝒔𝒊 𝜷𝟏 =𝟎 (ipoteza nulă) versus H1:𝜷𝟎 ≠ 𝟎 si/sau 𝜷𝟏 ≠ 𝟎(ipoteza alternativă)

2. Testul t
a) H0: 𝜷𝟎 =𝟎 (ipoteza nulă) versus H1:𝜷𝟎 ≠ 𝟎 (ipoteza alternativă)

b) H0: 𝜷𝟏 =𝟎 (ipoteza nulă) versus H1:𝜷𝟏 ≠ 𝟎 (ipoteza alternativă)


Testul F. Testarea semnificației globale a modelului

Se testează ipoteza H0: 𝜷𝟎 = 𝟎 ș𝑖 𝜷𝟏 =𝟎 (ipoteza nulă) versus


H1:𝜷𝟎 ≠ 𝟎 și/sau 𝜷𝟏 ≠ 𝟎 (ipoteza alternativă)

Se calculează 𝑭𝒄𝒂𝒍𝒄 cu una din relațiile următoare:

𝑺𝑺𝑹/𝟏 𝑹𝟐 /𝟏
𝑭𝒄𝒂𝒍𝒄 = sau 𝑭𝒄𝒂𝒍𝒄 =
𝑺𝑺𝑬/(𝒏 − 𝟐) (𝟏 − 𝑹𝟐 )/(𝒏 − 𝟐)

Și se compară cu 𝐹𝑐𝑟𝑖𝑡𝑖𝑐 determinat din tabelul distribuției F 𝐹𝑐𝑟𝑖𝑡𝑖𝑐 ~𝐹(1, 𝑛 − 2, 𝛼)


MS Excel:
=FINV(𝜶,1,n-2)
=F.INV.RT(𝜶,1,n-2)
Dacă 𝐅𝐜𝐚𝐥𝐜 > 𝑭𝒄𝒓𝒊𝒕𝒊𝒄 se respinge ipoteza H0, deci cel puțin un coeficient este diferit de 0.

Dacă 𝐅𝐜𝐚𝐥𝐜 ≤ 𝑭𝒄𝒓𝒊𝒕𝒊𝒄 se acceptă ipoteza H0, deci toți coeficienții modelului sunt 0.
În acest caz modelul nu mai descrie o relație de dependență între variabilele Y și X!
Distribuția de probabilități a coeficientilor b0 și b1
(în ipoteza unei distribuții normale a erorilor 𝜀𝑖 )

Cazul când dispersia 𝝈𝟐 a erorilor la nivelul populatiei nu este cunoscută (cazul cel mai des intalnit in realitate)
Dispersiile coeficientilor 𝑏0 si 𝑏1 (𝜎𝑏20 și 𝜎𝑏21 ) se determina în funcție de 𝜎 2 :

1 𝑥ҧ 2 𝜎2
𝜎𝑏20 = 𝜎2 ⋅ + 𝜎𝑏21 =
𝑛 σ𝑛𝑖=1 𝑥𝑖 − 𝑥ҧ 2 σ𝑛𝑖=1 𝑥𝑖 − 𝑥ҧ 2

În practică se utilizează estimațiile 𝑠𝑏20 și 𝑠𝑏21 ale dispersiilor corespunzătoare folosind s2 in locul 𝜎 2 :

𝟏 ഥ𝟐
𝒙 𝟐 𝒔𝟐 σ𝒊 𝒆𝟐
𝒊
𝒔𝟐𝒃𝟎= ⋅ 𝒔𝟐 + 𝒏 𝒔𝒃 = 𝒏 unde 𝒔 𝟐 =
𝒏 σ𝒊=𝟏 𝒙𝒊 − 𝒙 ഥ 𝟐 𝟏 σ𝒊=𝟏 𝒙𝒊 − 𝒙ഥ 𝟐 𝒏−𝟐
Erorile standard ale coeficienților b0 și b1 se calculează ca rădăcină pătrată din dispersiile 𝑠𝑏20 și 𝑠𝑏21 :
și

𝑠𝑏0 = 𝑠𝑏20 𝑠𝑏1 = 𝑠𝑏21

Exemplu
Testul t
În practică se testează următoarele ipoteze cu privire la semnificația fiecărui coeficient de
regresie:
Pentru coeficientul 𝜷𝟏 : H0: 𝜷𝟏 =𝟎 (ipoteza nulă) versus H1:𝜷𝟏 ≠ 𝟎 (ipoteza alternativă)
𝒃𝟏 MS Excel:
Se calculează: 𝒕𝒄𝒂𝒍𝒄 = Se determină: 𝐭 𝐜𝐫𝐢𝐭𝐢𝐜 ~𝐭 𝐧−𝟐 =TINV(𝜶,n-2)
𝒃𝟏 𝒔𝒃𝟏 =T.INV.2T(𝜶,n-2)
Dacă: 𝒕𝒄𝒂𝒍𝒄𝒃𝟏 > 𝒕𝒄𝒓𝒊𝒕𝒊𝒄 concluzia testului este că se respinge ipoteza H0, deci 𝜷𝟏 ≠ 𝟎
Dacă: 𝒕𝒄𝒂𝒍𝒄𝒃𝟏 ≤ 𝒕𝒄𝒓𝒊𝒕𝒊𝒄 concluzia testului este că se acceptă ipoteza H0, deci 𝜷𝟏 = 𝟎

Pentru coeficientul 𝜷𝟎 : H0: 𝜷𝟎 =𝟎 (ipoteza nulă) versus H1:𝜷𝟎 ≠ 𝟎 (ipoteza alternativă)


𝒃𝟎
Se calculează: 𝒕𝒄𝒂𝒍𝒄𝒃𝟎 = Se folosește 𝐭 𝐜𝐫𝐢𝐭𝐢𝐜 determinat anterior
𝒔𝒃𝟎
Dacă: 𝒕𝒄𝒂𝒍𝒄𝒃𝟎 > 𝒕𝒄𝒓𝒊𝒕𝒊𝒄 concluzia testului este că se respinge ipoteza H0, deci 𝜷𝟎 ≠ 𝟎

Dacă: 𝒕𝒄𝒂𝒍𝒄𝒃𝟎 ≤ 𝒕𝒄𝒓𝒊𝒕𝒊𝒄 concluzia testului este că se acceptă ipoteza H0, deci 𝜷𝟎 = 𝟎

Dacă vreunul dintre cei doi coeficienți este zero, atunci acesta se elimină din model cu
tot cu variabila căreia îi corespunde (dacă are atașată una)!
Calitatea modelului de regresie
𝒏 ∙ σ 𝒙𝒚 − σ 𝒙 σ 𝒚
Coeficient de corelatie liniara 𝒓𝒙𝒚 = −𝟏 ≤ 𝒓𝒙𝒚 ≤ 𝟏
𝒏∙ σ 𝒙𝟐 − σ𝒙 𝟐 𝒏∙ σ 𝒚𝟐 − σ𝒚 𝟐

=CORREL(Exemplu!A2:A51,Exemplu!F2:F51)

σ𝒊 𝒚
ෝ𝒊 − 𝒚
ഥ 𝟐
𝑺𝑺𝑹
Coeficient de determinatie 𝑹𝟐 = 𝟐
= 𝟎 ≤ 𝑹𝟐 ≤ 𝟏
σ𝒊 𝒚𝒊 − 𝒚
ഥ 𝑺𝑺𝑻

Raport de corelatie 𝑹= 𝑹𝟐 𝟎≤𝑹≤𝟏


Problema predicției liniare - intuitie

𝒚𝒊 = 𝒃𝟎 + 𝒃𝟏 ⋅ 𝒙𝒊 + 𝒆

yxmax
nou ෝ𝒊 = 𝒃𝟎 + 𝒃𝟏 ⋅ 𝒙𝒊
𝒚
yreal yො nou
yxmin

ෝ𝒏𝒐𝒖 = 𝒃𝟎 + 𝒃𝟏 ⋅ 𝒙𝒏𝒐𝒖
𝒚

xmin xnou xmax


Pasi pentru aplicarea metodei regresiei simple liniare
1. Folosind datele din eșantion pentru variabilele X si Y, calculează valorile parametrilor b0 și b1 aferente modelului 𝒚
ෝ𝒊 = 𝒃𝟎 + 𝒃𝟏 ⋅ 𝒙𝒊
𝑛 𝑛 𝑛 𝑛 𝑛 𝑛
Δ𝑏0
𝑏0 ⋅ 𝑛 + 𝑏1 ⋅ ෍ 𝑥𝑖 = ෍ 𝑦𝑖 𝑛 ෍ 𝑥𝑖 ෍ 𝑦𝑖 ෍ 𝑥𝑖 𝑛 ෍ 𝑦𝑖 𝑏0 =
𝑖=1 𝑖=1 𝑖=1 𝑖=1 𝑖=1 𝑖=1
Δ
𝑛 𝑛 𝑛 Δ= 𝑛 𝑛 Δb0 = 𝑛 𝑛 Δ𝑏1 = 𝑛 𝑛

෍ 𝑥𝑖2 ෍ 𝑥𝑖2 Δ𝑏1


𝑏0 ⋅ ෍ 𝑥𝑖 + 𝑏1 ⋅ ෍ 𝑥𝑖2 = ෍ 𝑥𝑖 ⋅ 𝑦𝑖 ෍ 𝑥𝑖 ෍ 𝑥𝑖 ⋅ 𝑦𝑖 ෍ 𝑥𝑖 ෍ 𝑥𝑖 ⋅ 𝑦𝑖 𝑏1 =
𝑖=1 𝑖=1 𝑖=1 𝑖=1 𝑖=1 𝑖=1 𝑖=1 𝑖=1 𝑖=1 Δ

2. Calculează valoarea estimată de model 𝑦ෝ𝑖 = 𝑏0 + 𝑏1 ⋅ 𝑥𝑖 (folosind valorile lui b0 și b1 determinate la pasul 1) pentru fiecare valoare
reală xi din eșantion
3. Calculează erorile ei = yi − 𝑦ෝ𝑖 și suma 𝑆𝑆𝐸 = σ𝑛𝑖=1 𝑒𝑖2
σ𝑛 2
𝑖=1 𝑒𝑖
4. Calculează 𝑠 2 =
𝑛−2
1 𝑥ҧ 2 𝑠2
5. Calculează 𝑠𝑏20 = 𝑠 2 ⋅ ( + σ𝑛 2) și 𝑠𝑏21 = σ𝑛 2, apoi 𝑠𝑏0 = 𝑠𝑏20 și 𝑠𝑏1 = 𝑠𝑏21
𝑛 𝑖=1 𝑥𝑖 −𝑥ҧ 𝑖=1 𝑥𝑖 −𝑥ҧ
𝑏0 𝑏1 MS Excel:
6. Calculează 𝑡𝑏0 = și 𝑡𝑏1 = , apoi identifică valoarea lui tcritic~ tn-2,a/2 (tabelul distributiei Student) =TINV(𝜶,n-2)
𝑠𝑏0 𝑠𝑏1
=T.INV.2T(𝜶,n-2)
7. Aplică testul t (verifică dacă tb0>tcritic, respectiv tb1>tcritic) , interpretează rezultatele obținute!
8. Calculează 𝑆𝑆𝑅 = σ𝑛𝑖=1 𝑦ො𝑖 − 𝑦ത 2 și 𝑆𝑆𝑇 = σ𝑛𝑖=1 𝑦𝑖 − 𝑦ത 2 = 𝑆𝑆𝑅 + 𝑆𝑆𝐸
𝑆𝑆𝑅 𝒏∙σ 𝒙𝒚−σ 𝒙 σ 𝒚
9. Calculează 𝑅2 = , 𝑅 = 𝑅2 și 𝒓𝒙𝒚 = , interpretează rezultatele obținute!
𝑆𝑆𝑇
𝒏∙σ 𝒙𝟐 − σ𝒙 𝟐 𝒏∙σ 𝒚𝟐 − σ𝒚 𝟐
MS Excel:
𝑆𝑆𝑅/1
10. Calculează 𝐹𝑐𝑎𝑙𝑐 = și identifică Fcritic~ F1,n-2,a (din tabelul distribuției Fisher) =FINV(𝜶,1,n-2)
=F.INV.RT(𝜶,1,n-2)
𝑆𝑆𝐸/(𝑛−2)
11. Aplică testul F pentru verificarea semnificației modelului (verifică dacă Fcalc>Fcritic), interpretează rezultatele obținute!
12. Foloseste modelul pentru predicții : 𝒚 ෝ𝒏𝒐𝒖 = 𝒃𝟎 + 𝒃𝟏 ⋅ 𝒙𝒏𝒐𝒖 , calculeaza eroarea de predictive (sy), apoi intervalul de încredere
pentru valoarea reala ynou

1 𝑥 0 − 𝑥ҧ 2
𝑠𝑦 = 𝑠2 ⋅ 1+ + 𝑛 𝑦 0 ∈ 𝑦ො 0 − 𝑡𝑐𝑟𝑖𝑡𝑖𝑐 ⋅ 𝑠𝑦 ; 𝑦ො 0 + 𝑡𝑐𝑟𝑖𝑡𝑖𝑐 ⋅ 𝑠𝑦
𝑛 σ𝑖=1 𝑥𝑖 − 𝑥ҧ 2
Statistică în Excel
pentru Evaluatori

Conf. univ. dr. Costel Ionașcu

S-ar putea să vă placă și