Documente Academic
Documente Profesional
Documente Cultură
pentru Evaluatori
Populație - conține
N apartamente
Apartament Caracteristica apartament Variabila
Pret apartament Y
Locatia (distanta fata de centru -km) X1
Etaj X2
Nr etaje X3
An constructie X4
Suprafata utila (m2) X5
Nr camere X6
Decomandat X7
Eșantion - conține n apartamente Nr bai X8
Finisaj X9
Locatia
Pret (distanta Sistem de incalzire X10
Nr An Suprafata Nr Nr Sistem de
apartament fata de etaj Decomandat Finisaj
etaje constructie utila (m2) camere bai incalzire
(EUR) centru-
km)
39000 2.80 4 4 1980 30 1 0 1 0 0
42000 2.60 4 4 1980 36 1 1 1 0 0
43800 2.40 10 10 1972 50 2 0 1 0 0
44500 2.30 4 4 1974 40 2 1 1 0 0
45500 3.02 1 4 2008 37 1 2 1 0 0
46000 1.85 4 4 1984 40 1 0 1 0 0
Tipuri de Variabile
dupa posibilitatea de a
dupa posibilitatea de a ordona dupa numarul de valori
dupa continut dupa tipul de valori numara elementele din
valorile posibil
multimea de valori
Infinit
Continue Infinit
c) Scala Interval – valorile determinate cu ajutorul său pot fi utilizate în calculul proporţiilor pentru intervale determinate
între valoarea 0 (origine) pe scală şi acestea.
Ex: anul constructiei
d) Scala proporţională (de raport) – este cel mai complet tip de scală, valorile determinate cu ajutorul ei putând fi
utilizate pentru toate tipurile de operaţii artimetice. În cazul acestei scale, valoarea 0 este 0 absolut şi
înseamnă absenţa fenomenului studiat.
Ex: suprafata utila, nr camere
Tipuri de Variabile => Tipuri de serii statistice
atributive
serie de distribuţie după
cantitative intervale de variaţie
continue
serie de distribuţie după
discrete variante sau intervale de
variaţie
calitative
nominale
serie de distribuţie după
Variabile de timp ordinale variante
serie cronologică
momente de timp de momente
serie cronologică
intervale de timp de de intervale
1 4
2 27
25 20
3 15
4 4
Total 50 20
15
15
10
10
5
5
0
0 51200 63400 75600 87800 100000
1 2 3 4
39000 51200 63400 75600 87800
Grafica seriilor de distribuţie
A.Histograma
B.Poligonul frecvenţelor
C.Curba frecvenţelor cumulate (Ogiva)
15
10
0
51200 63400 75600 87800 100000
39000 51200 63400 75600 87800
Indicatorii tendintei centrale
1- Modul
2- Cuantilele
- Mediana
- Cuartilele
- Decilele
- Percentilele
3- Media
Modul (Dominanta)
Definiţie: reprezintă acea valoare a caracteristicii care are frecvenţa cea mai mare.
• Este specifică seriilor de distribuţie:
=MODE.SNGL(Exemplu!A2:A51)
Nr
Nr camere
camere Nr apartamente
30
1 4
2 27
3 15 25
4 4
Total 50
20
15
10
0
1 2 3 4
Cuantilele
Definiţie: reprezintă indicatori de poziție care ne permit împărțirea unei serii de distribuție cu valorile ordonate (crescator, de
obicei) într-un anumit număr de părți egale.
Tipuri
•Mediana - permite împărțirea unei serii în 2 părți egale (notatie: Me). Ex: Me=58000 eur =MEDIAN(Exemplu!A2:A51)
•Cuartilele - permit împărțirea unei serii în 4 părți egale. Sunt în număr de 3 (notatie: Q1,Q2,Q3).
Ex: Q1=51200 eur; Q2=58000 eur; Q3=65750 eur =QUARTILE.INC(Exemplu!A2:A51,1)
•Decilele – permit împărțirea unei serii în 10 părți egale. Sunt în număr de 9 (notatie: D1,…,D9).
•Percentilele – permit împărțirea unei serii în 100 părți egale. Sunt în număr de 99 (notatie: P1,…,P99).
=PERCENTILE.INC(Exemplu!A2:A51,0.1)
39000 51200 58000 65750 100000
50% Me 50%
D5
P25 P50 P75
Media aritmetică – tipuri, relaţii de calcul
Tipuri:
-simplă - se utilizează în situaţia în care valorile variabilei studiate
nu se repetă
-ponderată - se utilizează în situaţia în care cel puţin o valoare a variabilei studiate
se repetă
Relaţie de calcul:
-simplă - ponderată
n n
x i x f i i
x= i =1
x= i =1
n
f
n
i
i =1
Prețul mediu al unui apartament
39000+42000+⋯+100000 3009800
𝑥lj = = = 60196 eur =AVERAGE(Exemplu!A2:A51)
50 50
Indicatorii Variatiei
1- Indicatori simpli
- Amplitudinea
2- Indicatori sintetici
- Dispersia
- Abaterea standard
- Coeficientul de variatie
Indicatorii variaţiei
• simpli
– Amplitudinea variaţiei
xmax − xmin
» relativă: Ar = 100
x
» simplă: = 2 i =1 =VAR.S(Exemplu!A2:A51)
n
n
(xi − x ) 2
fi
» ponderată: =
2 i =1
n
fi
i =1
Indicatorii variaţiei
• sintetici (continuare)
n
(xi − x ) 2
» simplă:
= i =1
= 2 =STDEV.S(Exemplu!A2:A51)
n
n
(xi − x ) 2
fi
» ponderată:
= i =1
n
= 2
fi
i =1
Indicatorii variaţiei
• sintetici (continuare)
– Coeficientul de variaţie
v= 100
x
102000
92000
82000
(Y) Pret apartament (eur)
72000
62000
52000
42000
32000
22000
20 30 40 50 60 70 80 90 100 110
0 0 0
0.00 0.50 1.00 1.50 2.00 2.50 3.00 3.50 0 20 40 60 80 100 120 0 2 4 6 8 10 12
0 0 0
1960 1970 1980 1990 2000 2010 0 1 2 3 4 5 0 0.5 1 1.5 2 2.5
Corelația – Tipuri. Analiza grafica
112000 120000
102000
100000
92000
82000 80000
72000
60000
62000
52000 40000
42000
20000
32000
22000 0
0.00 0.50 1.00 1.50 2.00 2.50 3.00 3.50
20 40 60 80 100 120
(X) Locatia (distanta fata de centru)
(X) Suprafata utila (m2)
𝒏 ∙ σ 𝒙𝒚 − σ 𝒙 σ 𝒚
Coeficient de corelatie liniara 𝒓𝒙𝒚 = −𝟏 ≤ 𝒓𝒙𝒚 ≤ 𝟏
(Pearson) 𝒏∙ σ 𝒙𝟐 − σ𝒙 𝟐 𝒏∙ σ 𝒚𝟐 − σ𝒚 𝟐
=CORREL(Exemplu!A2:A51,Exemplu!F2:F51)
σ𝒊 𝒚
ෝ𝒊 − 𝒚
ഥ 𝟐
𝑺𝑺𝑹
Coeficient de determinatie 𝑹𝟐 = 𝟐 = 𝟎 ≤ 𝑹𝟐 ≤ 𝟏
σ𝒊 𝒚𝒊 − 𝒚
ഥ 𝑺𝑺𝑻
X
-15o +15o
-15o
Y Modelul determinist = model perfect
+15o
-25o ..-5 o
X
-15o +15o
+5o ..+25 o
𝒚𝒊 = 𝒃𝟎 + 𝒃𝟏 ⋅ 𝒙𝒊 + 𝒆
(𝒙𝒊 , 𝒚𝒊 )
𝑦𝑖 ෝ𝒊 = 𝒃𝟎 + 𝒃𝟏 ⋅ 𝒙𝒊
𝒚
𝑒𝑖
ഥ
𝒚
𝒃𝟏
𝒃𝟎
𝑥1 𝑥1 + 1 𝑥ҧ 𝑥𝑖
Regresia – liniara simpla
Specificarea econometrică a modelului
𝑒𝑖 = 𝑦𝑖 − 𝑏0 − 𝑏1 ⋅ 𝑥𝑖 𝑛
F(𝑏0 , 𝑏1 ) = min 𝑦𝑖 − 𝑏0 − 𝑏1 ⋅ 𝑥𝑖 2
𝑛 𝑛
𝑒𝑖2 = 𝑦𝑖 − 𝑏0 − 𝑏1 ⋅ 𝑥𝑖 2 𝑖=1
𝑖=1 𝑖=1
𝑛 𝑛
𝑏0 ⋅ 𝑛 + 𝑏1 ⋅ 𝑥𝑖 = 𝑦𝑖
𝑖=1 𝑖=1
𝑛 𝑛 𝑛
𝑏0 ⋅ 𝑥𝑖 + 𝑏1 ⋅ 𝑥𝑖2 = 𝑥𝑖 ⋅ 𝑦𝑖
𝑖=1 𝑖=1 𝑖=1
𝑛 𝑛 𝑛 𝑛
𝑛 𝑥𝑖 𝑦𝑖 𝑥𝑖 𝑛 𝑦𝑖
𝑖=1 𝑖=1 𝑖=1 Δ𝑏0 Δ𝑏1
Δ= 𝑖=1 Δb0 = 𝑛 𝑛
Δ𝑏1 = 𝑛 𝑛 𝑏0 = 𝑏1 =
𝑛 𝑛 Δ Δ
𝑥𝑖 𝑥𝑖2 𝑥𝑖 ⋅ 𝑦𝑖 𝑥𝑖2 𝑥𝑖 𝑥𝑖 ⋅ 𝑦𝑖
𝑖=1 𝑖=1 𝑖=1 𝑖=1 𝑖=1 𝑖=1
Analiza surselor de variatie (ANOVA) – Analiza grafica
𝒚𝒊 = 𝒃𝟎 + 𝒃𝟏 ⋅ 𝒙𝒊 + 𝒆
(𝒙𝒊 , 𝒚𝒊 )
𝒚𝒊
ෝ𝒊
𝒚𝒊 − 𝒚 𝑒𝑖 ෝ𝒊 = 𝒃𝟎 + 𝒃𝟏 ⋅ 𝒙𝒊
𝒚
ഥ
𝒚𝒊 − 𝒚
ෝ𝒊
𝒚
ഥ
𝐲ො𝒊 − 𝒚
ഥ
𝒚
𝑥𝑖 − 𝑥ҧ
𝑥ҧ 𝑥𝑖
Analiza surselor de variație (ANOVA)
Exemplu
Testarea ipotezelor statistice
Procedura de testare statistică este comparabilă cu cea a procesului penal; un inculpat este considerat nevinovat atâta timp cât vinovăția
lui nu este dovedită. Procurorul încearcă să dovedească vinovăția inculpatului. Doar atunci când există suficiente dovezi pentru
condamnare, inculpatul este condamnat.
Ipoteza nevinovăției este respinsă numai atunci când o eroare este foarte puțin probabilă, deoarece nu se dorește condamnarea unui
inculpat nevinovat. O astfel de eroare se numește eroare de tip I (ex: condamnarea unei persoane nevinovate), iar apariția acestei erori
este controlată pentru a fi rară.
Ca o consecință a acestui comportament asimetric, este mai frecventă apariția unei erori de tipul II (achitarea unei persoane care a comis
infracțiunea).
1. Testul F
H0: 𝜷𝟎 =𝟎 𝒔𝒊 𝜷𝟏 =𝟎 (ipoteza nulă) versus H1:𝜷𝟎 ≠ 𝟎 si/sau 𝜷𝟏 ≠ 𝟎(ipoteza alternativă)
2. Testul t
a) H0: 𝜷𝟎 =𝟎 (ipoteza nulă) versus H1:𝜷𝟎 ≠ 𝟎 (ipoteza alternativă)
𝑺𝑺𝑹/𝟏 𝑹𝟐 /𝟏
𝑭𝒄𝒂𝒍𝒄 = sau 𝑭𝒄𝒂𝒍𝒄 =
𝑺𝑺𝑬/(𝒏 − 𝟐) (𝟏 − 𝑹𝟐 )/(𝒏 − 𝟐)
Dacă 𝐅𝐜𝐚𝐥𝐜 ≤ 𝑭𝒄𝒓𝒊𝒕𝒊𝒄 se acceptă ipoteza H0, deci toți coeficienții modelului sunt 0.
În acest caz modelul nu mai descrie o relație de dependență între variabilele Y și X!
Distribuția de probabilități a coeficientilor b0 și b1
(în ipoteza unei distribuții normale a erorilor 𝜀𝑖 )
Cazul când dispersia 𝝈𝟐 a erorilor la nivelul populatiei nu este cunoscută (cazul cel mai des intalnit in realitate)
Dispersiile coeficientilor 𝑏0 si 𝑏1 (𝜎𝑏20 și 𝜎𝑏21 ) se determina în funcție de 𝜎 2 :
1 𝑥ҧ 2 𝜎2
𝜎𝑏20 = 𝜎2 ⋅ + 𝜎𝑏21 =
𝑛 σ𝑛𝑖=1 𝑥𝑖 − 𝑥ҧ 2 σ𝑛𝑖=1 𝑥𝑖 − 𝑥ҧ 2
În practică se utilizează estimațiile 𝑠𝑏20 și 𝑠𝑏21 ale dispersiilor corespunzătoare folosind s2 in locul 𝜎 2 :
𝟏 ഥ𝟐
𝒙 𝟐 𝒔𝟐 σ𝒊 𝒆𝟐
𝒊
𝒔𝟐𝒃𝟎= ⋅ 𝒔𝟐 + 𝒏 𝒔𝒃 = 𝒏 unde 𝒔 𝟐 =
𝒏 σ𝒊=𝟏 𝒙𝒊 − 𝒙 ഥ 𝟐 𝟏 σ𝒊=𝟏 𝒙𝒊 − 𝒙ഥ 𝟐 𝒏−𝟐
Erorile standard ale coeficienților b0 și b1 se calculează ca rădăcină pătrată din dispersiile 𝑠𝑏20 și 𝑠𝑏21 :
și
Exemplu
Testul t
În practică se testează următoarele ipoteze cu privire la semnificația fiecărui coeficient de
regresie:
Pentru coeficientul 𝜷𝟏 : H0: 𝜷𝟏 =𝟎 (ipoteza nulă) versus H1:𝜷𝟏 ≠ 𝟎 (ipoteza alternativă)
𝒃𝟏 MS Excel:
Se calculează: 𝒕𝒄𝒂𝒍𝒄 = Se determină: 𝐭 𝐜𝐫𝐢𝐭𝐢𝐜 ~𝐭 𝐧−𝟐 =TINV(𝜶,n-2)
𝒃𝟏 𝒔𝒃𝟏 =T.INV.2T(𝜶,n-2)
Dacă: 𝒕𝒄𝒂𝒍𝒄𝒃𝟏 > 𝒕𝒄𝒓𝒊𝒕𝒊𝒄 concluzia testului este că se respinge ipoteza H0, deci 𝜷𝟏 ≠ 𝟎
Dacă: 𝒕𝒄𝒂𝒍𝒄𝒃𝟏 ≤ 𝒕𝒄𝒓𝒊𝒕𝒊𝒄 concluzia testului este că se acceptă ipoteza H0, deci 𝜷𝟏 = 𝟎
Dacă: 𝒕𝒄𝒂𝒍𝒄𝒃𝟎 ≤ 𝒕𝒄𝒓𝒊𝒕𝒊𝒄 concluzia testului este că se acceptă ipoteza H0, deci 𝜷𝟎 = 𝟎
Dacă vreunul dintre cei doi coeficienți este zero, atunci acesta se elimină din model cu
tot cu variabila căreia îi corespunde (dacă are atașată una)!
Calitatea modelului de regresie
𝒏 ∙ σ 𝒙𝒚 − σ 𝒙 σ 𝒚
Coeficient de corelatie liniara 𝒓𝒙𝒚 = −𝟏 ≤ 𝒓𝒙𝒚 ≤ 𝟏
𝒏∙ σ 𝒙𝟐 − σ𝒙 𝟐 𝒏∙ σ 𝒚𝟐 − σ𝒚 𝟐
=CORREL(Exemplu!A2:A51,Exemplu!F2:F51)
σ𝒊 𝒚
ෝ𝒊 − 𝒚
ഥ 𝟐
𝑺𝑺𝑹
Coeficient de determinatie 𝑹𝟐 = 𝟐
= 𝟎 ≤ 𝑹𝟐 ≤ 𝟏
σ𝒊 𝒚𝒊 − 𝒚
ഥ 𝑺𝑺𝑻
𝒚𝒊 = 𝒃𝟎 + 𝒃𝟏 ⋅ 𝒙𝒊 + 𝒆
yxmax
nou ෝ𝒊 = 𝒃𝟎 + 𝒃𝟏 ⋅ 𝒙𝒊
𝒚
yreal yො nou
yxmin
ෝ𝒏𝒐𝒖 = 𝒃𝟎 + 𝒃𝟏 ⋅ 𝒙𝒏𝒐𝒖
𝒚
2. Calculează valoarea estimată de model 𝑦ෝ𝑖 = 𝑏0 + 𝑏1 ⋅ 𝑥𝑖 (folosind valorile lui b0 și b1 determinate la pasul 1) pentru fiecare valoare
reală xi din eșantion
3. Calculează erorile ei = yi − 𝑦ෝ𝑖 și suma 𝑆𝑆𝐸 = σ𝑛𝑖=1 𝑒𝑖2
σ𝑛 2
𝑖=1 𝑒𝑖
4. Calculează 𝑠 2 =
𝑛−2
1 𝑥ҧ 2 𝑠2
5. Calculează 𝑠𝑏20 = 𝑠 2 ⋅ ( + σ𝑛 2) și 𝑠𝑏21 = σ𝑛 2, apoi 𝑠𝑏0 = 𝑠𝑏20 și 𝑠𝑏1 = 𝑠𝑏21
𝑛 𝑖=1 𝑥𝑖 −𝑥ҧ 𝑖=1 𝑥𝑖 −𝑥ҧ
𝑏0 𝑏1 MS Excel:
6. Calculează 𝑡𝑏0 = și 𝑡𝑏1 = , apoi identifică valoarea lui tcritic~ tn-2,a/2 (tabelul distributiei Student) =TINV(𝜶,n-2)
𝑠𝑏0 𝑠𝑏1
=T.INV.2T(𝜶,n-2)
7. Aplică testul t (verifică dacă tb0>tcritic, respectiv tb1>tcritic) , interpretează rezultatele obținute!
8. Calculează 𝑆𝑆𝑅 = σ𝑛𝑖=1 𝑦ො𝑖 − 𝑦ത 2 și 𝑆𝑆𝑇 = σ𝑛𝑖=1 𝑦𝑖 − 𝑦ത 2 = 𝑆𝑆𝑅 + 𝑆𝑆𝐸
𝑆𝑆𝑅 𝒏∙σ 𝒙𝒚−σ 𝒙 σ 𝒚
9. Calculează 𝑅2 = , 𝑅 = 𝑅2 și 𝒓𝒙𝒚 = , interpretează rezultatele obținute!
𝑆𝑆𝑇
𝒏∙σ 𝒙𝟐 − σ𝒙 𝟐 𝒏∙σ 𝒚𝟐 − σ𝒚 𝟐
MS Excel:
𝑆𝑆𝑅/1
10. Calculează 𝐹𝑐𝑎𝑙𝑐 = și identifică Fcritic~ F1,n-2,a (din tabelul distribuției Fisher) =FINV(𝜶,1,n-2)
=F.INV.RT(𝜶,1,n-2)
𝑆𝑆𝐸/(𝑛−2)
11. Aplică testul F pentru verificarea semnificației modelului (verifică dacă Fcalc>Fcritic), interpretează rezultatele obținute!
12. Foloseste modelul pentru predicții : 𝒚 ෝ𝒏𝒐𝒖 = 𝒃𝟎 + 𝒃𝟏 ⋅ 𝒙𝒏𝒐𝒖 , calculeaza eroarea de predictive (sy), apoi intervalul de încredere
pentru valoarea reala ynou
1 𝑥 0 − 𝑥ҧ 2
𝑠𝑦 = 𝑠2 ⋅ 1+ + 𝑛 𝑦 0 ∈ 𝑦ො 0 − 𝑡𝑐𝑟𝑖𝑡𝑖𝑐 ⋅ 𝑠𝑦 ; 𝑦ො 0 + 𝑡𝑐𝑟𝑖𝑡𝑖𝑐 ⋅ 𝑠𝑦
𝑛 σ𝑖=1 𝑥𝑖 − 𝑥ҧ 2
Statistică în Excel
pentru Evaluatori