Sunteți pe pagina 1din 13

Capitol extras din cartea Introducere n economia aplicat, 2004

autor Constantin Dugulean

1.14. Valorile aberante n analiza de regresie (outliers)


Valorile extreme ale variabilelor observate pot influena esenial valoarea
estimatorilor. Aceste valori aberante, numite n limba englez outliers sunt generate de
factori neobinuii, deosebii, producnd modificri majore asupra variabilelor, care apar n
cazurile respective, ca fiind rupte de contextul celorlalte observri.
Metoda grafic este calea cea mai simpl de a pune n eviden existena valorilor
aberante. Dar aceast metod se poate aplica n cazul regresiei liniare simple. n cazul
regresiei multiple, este dificil identificarea acestor valori extreme.
Analiza reziduurilor, care ar trebui s nsoeasc estimarea oricrei ecuaii de regresie,
poate contribui la detectarea lor. Valorile mari pozitive sau negative ale reziduurilor arat c
respectivele observri constituie valori extreme.
n exemplul de mai jos, este rezolvat un exerciiu, n care se cunosc despre economitii
de la Universitatea din Michigan, date referitoare la salariul i experiena dobndit, n anul
1983-1984. Se cere s se stabileasc dac salariul este influenat semnificativ de anii de
experien.
n Tabelul 1.14, variabila yi reprezint salariul, exprimat n mii $/an, iar variabila xi
reprezint anii de experien, ca numr de ani trecui de la acordarea titlului de doctor.
yi

xi

46.8 20

30.0 16

63.0 43

42.4 20

51.5 15

54.3 32

56.5 19

40.6 13

51.0 32

55.0 19

51.3 12

39.0 30

53.0 19

50.3 12

52.0 26

55.0 18

62.4 10

55.0 25

54.0 18

39.3 10

41.2 23

50.7 17

43.2 9

47.7 22

37.5 17

40.4 7

44.5 22

61.0 16

37.7 6

43.0 21

48.1 16

27.7 3

Exerciiu propus spre rezolvare de G.S. Maddala, n Introduction to Econometrics, 2nd


Edition, Ed. Macmillan, New York, 1992, p. 108, sursa: R.H. Frank, Are Workers Paid Their
Marginal Products?, The American Economic Review, September 1984, p. 560

Tabelul 1.14. Datele despre salariul i experiena economitilor, n 1983-1984


Graficul din Figura 1.15 are un punct aberant (ncercuit), care este
deprtat de restul punctelor ce formeaz norul de puncte. Acest punct pare s
atrag drepta de regresie spre el.

Figura 1.15. Corelaia dintre salariul i vechimea angajailor n 1983-1984


Tabela de regresie obinut cu Microsoft Excel este prezentat n Tabelul 1.15.
SUMMARY OUTPUT
Regression Statistics
Multiple R
0.4198
R Square
0.1762
Adjusted R Sq.
0.1487
Standard Error
8.0149
Observations
32
ANOVA
df
Regression
1
Residual
30
Total
31
Coeff.
Intercept
X Variable 1

39.643
0.436

SS
MS
412.20 412.20
1927.18 64.24
2339.38
Std.Err.
t Stat
3.467
0.172

11.433
2.533

F
Signific.F
6.42
0.01677

Pvalue
0.000
0.017

Lower
95%
32.561
0.085

Upper
95%
46.724
0.788

Tabelul 1.15. Tabela de regresie a salariului n funcie de anii de experien


Modelul liniar identificat este y i 39.643 0.436 xi . Coeficient de
determinaie mic, de 0.17, arat c modelul liniar explic variaia salariului n
proporie de numai 17%.
Coeficientul de corelaie liniar ntre salariul i experiena exprimat n
ani, de 0.42, arat o intensitate slab ntre cei doi indicatori. Cei doi coeficieni
ai modelului sunt semnificativ diferii de 0 (P-value), testul Fisher arat c
regresia este semnificativ ncepnd de la un prag de semnificaie de 1.67%.
Valorile teoretice calculate conform modelului liniar de regresie se afl
reprezentate pe graficul din Figura 1.15. Valoarea mic a coeficientului de
determinaie, indic posibilitatea existenei unui outlier, care a fost deja
identificat pe grafic.
Se calculeaz reziuduurile ei y i y i , ca abateri ntre valorile
observate i cele ajustate.

Se ordoneaz, de exemplu, descresctor dup variabila y i se observ


care sunt abaterile mari, n ambele sensuri: pozitive i negative. n Tabelul 1.16
sunt prezentate valorile ordonate.
n urma studierii erorilor se observ c exist 2 puncte care genereaz
erori pozitive mari i 3 puncte care genereaz erori negative mici, dar mari n
valoare absolut. Se elimin punctele marcate accentuat n Tabelul 1.16 i se
repet analiza de regresie, pentru cele 27 de observri rmase.
yi
62.4
61.0
56.5
55.0
55.0
54.0
51.3
50.3
51.5
53.0
63.0
55.0
50.7
48.1
52.0
54.3

xi

ei
18.4
14.4
8.6
7.5
7.1
6.5
6.4
5.4
5.3
5.1
4.6
4.5
3.6
1.5
1.0
0.7

10
16
19
18
19
18
12
12
15
19
43
25
17
16
26
32

yi
43.2
47.7
46.8
40.4
51.0
37.7
39.3
40.6
44.5
43.0
42.4
41.2
37.5
27.7
39.0
30.0

xi
9
22
20
7
32
6
10
13
22
21
20
23
17
3
30
16

ei
-0.4
-1.5
-1.6
-2.3
-2.6
-4.6
-4.7
-4.7
-4.7
-5.8
-6.0
-8.5
-9.6
-13.3
-13.7
-16.6

Tabelul 1.16. Analiza reziduurilor pentru detectarea punctelor aberante


Tabela de regresie din Tabelul 1.17, conduce la modelul liniar

y i 38.952 0.494 xi , care indic un coeficient de corelaie ntre variabile,

mai mare, de 0.60, artnd o legtur de intensitate medie; un coeficient de


determinaie de 0.36, mai bun dect n regresia precedent; estimatorii sunt
semnificativi diferii de 0 cu o probabilitate de 100%. Testul Fisher arat
acelai lucru; valoarea sa fiind mai mare, iar pragul de semnificaie mai mic,
dect la regresia iniial, indicnd cu o probabilitate de 99.9% faptul c noua
regresie este global semnificativ.
SUMMARY OUTPUT
Regression Statistics
Multiple R
0.6016
R Square
0.3619
Adjusted R Sq.
0.3364
Standard Error
5.4099
Observations
27
ANOVA
df
Regression
1
Residual
25
Total
26
Coeff.
Intercept
X Variable 1

38.952
0.494

SS
414.966
731.674
1146.64
Std.Err.

MS
414.966
29.267

2.700
0.131

14.425
3.765

t Stat

F
Signif.F
14.179 0.000903

P-value
0.000
0.001

Lower
95%
33.390
0.224

Upper
95%
44.513
0.764

Tabelul 1.17. Tabela de regresie dup eliminarea valorilor extreme


Valorile teoretice yt1 obinute cu noul model sunt reprezentate pe
graficul din Figura 1.16.
Pe grafic se pot vedea punctele ncercuite, care au fost eliminate i nu
au fost considerate n noua analiz de regresie. Printre punctele eliminate nu se
afl i punctul considerat aberant la nceput, folosind metoda grafic. Se poate
ncerca i varianta prin care s se elimine numai punctul aberant identificat prin
metoda grafic.
Tabela de regresie din Tabelul 1.18 indic un model mult mai slab dect
varianta a 2-a, cu un coeficient de determinaie de numai 0.09 fa de 0.36 ct
era dup eliminarea celor 5 puncte.

Figura 1.16. Dreapta de regresie dup eliminarea valorilor extreme ale


reziduurilor
SUMMARY OUTPUT
Regression Statistics
Multiple R
0.3088
R Square
0.0954
Adjusted R Sq
0.0642
Standard Error
8.0868
Observations
31
ANOVA
df
SS
MS
Regression
1 199.95863 199.9586
Residual
29 1896.4923 65.39629
Total
30 2096.451
Coeff.
Std. Err.
t Stat
Intercept
X Variable 1

40.829
0.360

3.904
0.206

10.459
1.749

F
3.0576

P-value
0.000
0.091

Signif.F
0.0909

Lower
95%
32.845
-0.061

Upper
95%
48.812
0.782

Tabelul 1.18. Tabela de regresie dup eliminarea punctului iniial aberant


Se observ o intensitate slab a corelaiei dintre variabila explicat i
cea explicativ, de numai 0.31, o regresie care ncepe s devin semnificativ

numai de la un prag de 9%, dup cum arat i raia Student a estimatorului


1 , la P-value. Pentru un prag de semnificaie =5%, se observ c intervalul
a
de ncredere al coeficientului variabilei x poate conine valoarea 0, pentru c se
schimb semnul din al limitei inferioare n semnul + al limitei superioare. n
Figura 1.17 sunt prezentate valorile teoretice yt2 aflate pe dreapta de regresie.
Se observ c norul de puncte i dreapta de regresie sunt aproape
paralele cu axa Ox, ceea ce arat exitena unei corelaii slabe ntre salariu i
numrul de ani trecui de la obinerea doctoratului. Nu se poate renuna la acest
punct, care la prima vedere prea a fi aberant.

Figura 1.17. Ajustarea salariului n funcie de vechime, dup eliminarea


punctului aberant, prin metoda grafic
Varianta, n care se elimin cele cinci puncte i punctul iniial aberant,
ofer tabela de regresie din Tabelul 1.19.
SUMMARY OUTPUT
Regression Statistics
Multiple R
0.4704
R Square
0.2213
Adj. R Sq.
0.1888
Std. Error
5.4733
Observations
26
ANOVA
df
SS
MS
Regression
1
204.279 204.279
Residual
24
718.975 29.957
Total
25
923.255
Coeff.
Standard
t Stat
Error
Intercept
39.9928
3.1655 12.6338
X Variable 1
0.4302
0.1647
2.6113

F
6.819

P-value
0.0000
0.0153

Signif.F
0.0153

Lower
95%
33.459
0.0902

Upper
95%
46.526
0.7702

Tabelul 1.19. Tabela de regresie dup eliminarea celor 6 puncte aberante


Se observ c nici aceast variant nu este mai bun dect cea n care
s-au eliminat cele 5 puncte detectate prin analiza reziduurilor, varianta a 2-a.

Modelul obinut y i 39.99 0.43 xi este mai bun dect cel din varianta
anterioar, dar nu mai bun dect cel din varianta a 2-a. Acest model este global
semnificativ, dup cum arat testul Fisher, ncepnd de la un prag de 1.53%.
Coeficientul de determinaie de numai 0.22 poate determina renunarea la
aceast variant i pstrarea variantei, n care se elimin numai cele 5 valori
extreme, ncercuite n Figura 1.16.
Modelul reinut ca fiind cel mai bun este: y i 38.952 0.494 xi . Nu se
poate renuna la punctual izolat, pentru c acesta se afl pe direcia norului de
puncte, iar abaterea sa fa de linia de regresie din modelul iniial este mic.
1.15. Metode rezistente de regresie
Calitatea ajustrii folosind metoda regresiei, se apreciaz n funcie de
coeficientul de determinaie, R2. Informaia coninut n date, nu este toat
condensat n estimatorii: a 0 i a1 , R2 i SSE, ci se poate gsi i n reziduuri,
care conin partea de variaie neexplicat a variabilei dependente. Dac
analiznd reziduurile, se constat prezena unei structuri, nseamn c acestea
sunt nc purttoare de informaie, care s-ar putea modela. Modelul ales trebuie
modificat corespunztor.
Statisticianul Anscombe, n 1973, a gsit patru seturi de date care au
particularitatea de a furniza aceleai rezultate statistice. Pentru cele patru
grupuri de date, se gsete aceeai dreapt de regresie y i 3 0.5 xi , aceeai
abatere rezidual 1.236 i acelai coeficient de determinaie 0.667, ceea ce
nseamn c variabila x explic dou treimi din variana variabilei y.
x
10
14
5
8
9
12
4
7
11
13
6

Grupul A
y
8.04
9.96
5.68
6.95
8.81
10.84
4.26
4.82
8.33
7.58
7.24

8
10
5.5
7
7.5
9
5
6.5
8.5
9.5
6

x
10
14
5
8
9
12
4
7
11
13
6

Grupul B

y
y
9.14
8
8.1
10
4.74 5.5
8.14
7
8.77 7.5
9.13
9
3.1
5
7.26 6.5
9.26 8.5
8.74 9.5
6.13
6

x
10
14
5
8
9
12
4
7
11
13
6

Grupul C
y
7.46
8.84
5.73
6.77
7.11
8.15
5.39
6.42
7.81
12.74
6.08

8
10
5.5
7
7.5
9
5
6.5
8.5
9.5
6

x
8
8
8
8
8
8
8
19
8
8
8

Grupul D

y
y
6.58
7
5.76
7
7.71
7
8.84
7
8.47
7
7.04
7
5.25
7
12.5 12.5
5.56
7
7.91
7
6.89
7

Tabelul 1.19. Grupurile de date ale lui Anscombe


Totui aceste patru seturi de date corespund unor situaii foarte diferite,
prezentate n Tabelul 1.20, i n Figurile 1.18, 1.19, 1.20 i 1.21. Graficele
prezint datele empirice i dreapta de regresie ntr-o diagram XY (Scatter).
Numai n cazul A, Figura 1.18, se justific utilizarea regresiei liniare.
Pentru celelalte trei cazuri, aplicarea metodei regresiei nu are sens.

Datele grupului A si dreapta de regresie


12
10

8
6
4
2
0
0

Datele observate

10

15

dreapta de regresie

Figura 1.18. Grupul A de date i dreapta de regresie


Figura 1.19. Grupul B de date i dreapta de regresie
Pentru datele din grupul B, modelul nu este corect specificat. Graficul
din Figura 1.19 indic utilizarea unui model neliniar.
Pentru ansamblul C, datele sunt aliniate dup o dreapt, dar neansa de
a conine o valoare aberant pentru x=13, face ca dreapta de regresie s nu
treac prin nici unul din puncte.
Datele grupului C si dreapta de regresie

14

Datele grupului B si dreapta de regresie

12

12
10
y

10
8

6
8
4

6
2

4
0

2 0
0
0

5
Datele observate

5
Datele observate

10
dreapta de regresie

10
dreapta de regresie

Figura 1.20. Grupul C de date i dreapta de regresie

15

15

Pentru grupul D, dreapta de regresie pare atras de punctul aberant, n


x=19 sau nu sunt suficiente date pentru a determina panta dreptei
Datele grupului D si dreapta de regresie
14
12
10
y

8
6
4
2
0
0

5
10
Datele observate

15
dreapta de regresie

20
x

Figura 1.21. Grupul D de date i dreapta de regresie


Metodele rezistente pentru rezolvarea situaiilor n care se manifest
existena valorilor aberante, recurg la proceduri iterative i respect acelai
criteriu, cel al minimizrii sumei ptratelor abaterilor valorilor observate de la
dreapta de regresie (variana reziduurilor s fie minim), ca i metoda regresiei,
n

min ( y i y i ) 2 .
i 1

Aceste metode sunt:


1. metoda celor trei puncte i
2. metoda lui Theil.
Utilizarea medianei, n locul mediei, confer rezisten acestor metode,
pentru c n stabilirea medianei nu se ine seama de valorile extreme ale
variabilei.
1.15.1. Metoda celor trei puncte
Metoda celor trei puncte const n:
- determinarea cuantilelor de ordinul 1/3 i 2/3 ale variabilei x, notate
cu x1/3 i x2/3;
- divizarea datelor n trei subansamble, astfel:
- I : xi < x1/3,
- II : x1/3 < xi < x2/3,
- III : xi > x2/3;
- determinarea a dou puncte (xI, yI) i (xIII, yIII) ca puncte mediane
ale subansamblelor I i III, lund ca abscis mediana absciselor
acestor puncte i ordonata, mediana ordonatelor lor;
- calculul pantei dreptei care trece prin cele dou puncte:
1 = (yIII yI) / (xIII xI);
a
- i a 0 se determin ca median a cantitilor yi a1 xi.
Dei metoda se numete a celor trei puncte, n acest caz, sunt numai
dou puncte; al treilea apare n studiul curbelor de cretere.

Se utilizeaz pentru exemplificare, grupul C de date al lui Anscombe i


se parcurg etapele descrise n continuare.
- Se ordoneaz cresctor cele 11 valori ale variabilei x, pentru a determina
cuantilele de ordinul 1/3 i 2/3. Se stabilesc probabilitile cumulate
cresctor sub forma unei scri cu pasul 1/11. Prin interpolare se stabilesc ce
valori ale lui x, corespund probabilitilor 0.33 i 0.67. Cuantila de ordinul
1/3 este 6.66, iar cea de ordinul 2/3 este 10.33. n Tabelul 1.21 sunt
prezentate calculele pentru determinarea cuantilelor.
- Se mpart cele 11 observri n trei grupe, n funcie de cele dou cuantile
determinate. n Tabelul 1.22 se disting aceste grupe.
- Pentru primul punct (xI, yI), mediana valorilor x este 5, iar a valorilor y,
5.73, ca fiind valorile centrale. Pentru punctul (xIII, yIII), avnd un numr par
de elemente, mediana valorilor x este media aritmetic simpl a valorilor
12 i 13, adic 12.5, iar mediana valorilor y, se obine dup ordonarea
cresctoare a seriei acestora, ca medie aritmetic ntre valorile centrale 8.15
i 8.84, adic 8.495.
- Se calculeaz panta dreptei ce unete cele dou puncte de coordonate
(5, 5.73), i (12.50, 8.495). Aceast valoare este a1 =0.3687.
- Termenul constant a 0 , mediana cantitilor yi a1xi, se obine dup
ordonarea cresctoare a acestora, ca fiind termenul lor central, 3.821.
xi Probabiliti cumulate
4
5
6
7
8
9
10
11
12
13
14

0.09
0.181818
0.272727
0.363636
0.454545
0.545455
0.636364
0.727273
0.818182
0.909091
1

Ordin
cuantile

Cuantilele
x1/3 i x2/3

6.66
0.33333

10.33
0.66667

Tabelul 1.21. Calculul valorilor x1/3 i x2/3


xi
yi
xi
4 5.39
5 5.73 Punctul 1
(5
6 6.08
7 6.42
8 6.77
a1 =
9 7.11
a0 =
10 7.46
11 7.81
12 8.15 Punctul 2 (12.50
13 12.74
14 8.84

yi
5.73)

0.3686
3.8206

8.495)

yi a1xi
3.9153
3.8866
3.868
3.8393
3.8206
3.792
3.7733
3.7546
3.726
7.9473
3.6786

3.9153
3.8866
3.868
3.8393
3.8206
3.792
3.7733
3.7546
3.726
3.6786
7.9473

Tabelul 1.22. Calculul parametrilor de regresie

Cu modelul astfel determinat y i 3.821 0.3687 xi , se obin valorile


teoretice, situate pe o dreapt aflat n imediata apropiere a datelor observate.
Aceast dreapt de regresie nu mai este atras de punctul aberant, fiind astfel
mult
mai
Datele
grupului
C
si
dreapta
de
regresie
bun,
14
12
10
y

8
6
4
2
0
3

datele observate

11

13

15
dreapta de regresie corecta x

pentru c trece foarte aproape de majoritatea valorilor observate ale grupului C


de date.

Figura 1.22. Grupul de date C i noua dreapt de regresie


Pe graficul din Figura 1.22 se observ c noua dreapt de regresie trece
prin aproape toate punctele, care sunt aliniate i nu mai este atras de punctul
aberant.
1.15.2. Metoda lui Theil
Metoda lui Theil const n parcurgerea urmtorilor pai, pentru
determinarea unui model liniar y i b0 b1 xi :

se dispune de n puncte (xi, yi); se consider

n( n 1)
cupluri de puncte;
2

se unete fiecare cuplu de puncte printr-o dreapt; se calculeaz panta


fiecrei drepte;
n( n 1)
- valoarea reinut pentru parametrul b1 este mediana acestor
2
pante ale dreptelor;
- b0 se determin ca median a cantitilor y i b1 xi ale dreptelor.
Cu parametrii astfel determinai se obine o dreapt care va fi mai bun
dect dreapta de regresie iniial, atras de punctul aberant.
Aplicarea metodei lui Theil pentru grupul de date C al lui Anscombe,
conduce la urmtoarele rezultate, prezentate n Tabelele 1.23, 1.24 i 1.25.

xi x j 14

10
14
5
8
9
12
4
7
11
13
6

9 12

7 11 13

4 -5 -2 -1 2 -6 -3 1 3 -4
0 -9 -6 -5 -2 -10 -7 -3 -1 -8
0 3 4 7 -1 2 6 8 1
0 1 4 -4 -1 3 5 -2
0 3 -5 -2 2 4 -3
0 -8 -5 -1 1 -6
0 3 7 9 2
0 4 6 -1
0 2 -5
0 -7
0

Tabelul 1.23. Calculul diferenelor xi x j


y i y j 8.84

5.73

6.77

7.11

8.15

5.39

6.42

7.81 12.74

7.46 1.38 -1.73 -0.69 -0.35 0.69 -2.07 -1.04 0.35


8.84
0 -3.11 -2.07 -1.73 -0.69 -3.45 -2.42 -1.03
5.73
0 1.04 1.38 2.42 -0.34 0.69 2.08
6.77
0 0.34 1.38 -1.38 -0.35 1.04
7.11
0 1.04 -1.72 -0.69
0.7
8.15
0 -2.76 -1.73 -0.34
5.39
0 1.03 2.42
6.42
0 1.39
7.81
0
12.74
6.08

5.28
3.9
7.01
5.97
5.63
4.59
7.35
6.32
4.93
0

6.08
-1.38
-2.76
0.35
-0.69
-1.03
-2.07
0.69
-0.34
-1.73
-6.66
0

Tabelul 1.24. Calculul diferenelor y i y j


Calculele pantelor celor 55 de drepte i mediana lor, folosind funcia
MEDIAN(...) din Excel, precum i cantitile ce reprezint termenii liberi i
mediana lor, sunt prezentate n Tabelul 1.25.
Dreapta de regresie este y i 4.0044 0.3456 xi , iar n Tabelul 1.26
sunt prezentate valorile teoretice obinute prin metoda lui Theil, i cele obinute

prin metoda celor trei puncte. Graficul din Figura 1.23 prezint cele dou
drepte de regresie obinute prin metoda celor 3 puncte i prin metoda lui Theil.

xi x j y i y j
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49

4
-5
-2
-1
2
-6
-3
1
3
-4
-9
-6
-5
-2
-10
-7
-3
-1
-8
3
4
7
-1
2
6
8
1
1
4
-4
-1
3
5
-2
3
-5
-2
2
4
-3
-8
-5
-1
1
-6
3
7
9
2

1.38
-1.73
-0.69
-0.35
0.69
-2.07
-1.04
0.35
5.28
-1.38
-3.11
-2.07
-1.73
-0.69
-3.45
-2.42
-1.03
3.9
-2.76
1.04
1.38
2.42
-0.34
0.69
2.08
7.01
0.35
0.34
1.38
-1.38
-0.35
1.04
5.97
-0.69
1.04
-1.72
-0.69
0.7
5.63
-1.03
-2.76
-1.73
-0.34
4.59
-2.07
1.03
2.42
7.35
0.69

b
1

b
0

0.3450
0.3460
0.3450
0.3500
0.3450
0.3450
0.3467
0.3500
1.7600
0.3450
0.3456
0.3450
0.3460
0.3450
0.3450
0.3457
0.3433
-3.900
0.3450
0.3467
0.3450
0.3457
0.3400
0.3450
0.3467
0.8763
0.3500
0.3400
0.3450
0.3450
0.3500
0.3467
1.1940
0.3450
0.3467
0.3440
0.3450
0.3500
1.4075
0.3433
0.3450
0.3460
0.3400
4.5900
0.3450
0.3433
0.3457
0.8167
0.3450

4.0044
4.0022
4.0022
4.0056
4
4.0033
4.0078
4.0011
4.0089
8.2478
4.0067
Me=b0
4.0044

50
51
52
53
54
55

4
6
-1
2
-5
-7

1.39
6.32
-0.34
4.93
-1.73
-6.66
Me=b1

0.3475
1.0533
0.3400
2.4650
0.3460
0.9514
0.3456

Tabelul 1.25. Calculul parametrilor noii drepte de regresie


Grupul C
x
y
10
14
5
8
9
12
4
7
11
13
6

7.46
8.84
5.73
6.77
7.11
8.15
5.39
6.42
7.81
12.74
6.08

Regresia liniar Met. 3 puncte Metoda Theil


i
i
i
y
y
y
8
7.51
7.46
10
8.98
8.84
5.5
5.66
5.73
7
6.77
6.77
7.5
7.14
7.11
9
8.24
8.15
5
5.30
5.39
6.5
6.40
6.42
8.5
7.88
7.81
9.5
8.61
8.50
6
6.03
6.08

Tabelul 1.26. Prezentarea comparativ a rezultatelor


Se observ n Tabelul 1.26, c valorile teoretice prin metoda lui Theil
coincid cu valorile yi, cu excepia punctului aberat de coordonate (13, 12.74).
n

Dei toate celelalte erori sunt 0, totui

(y
i 1

y i ) 2 este mai mare

dect n cazul metodei celor 3 puncte.

Figura 1.23. Compararea metodelor rezistente


Ambele metode sunt bune. Cu toate acestea faptul c regresia lui Theil
trece prin toate punctele, cu excepia celui aberant, face ca aceasta din urm s
fie preferat fa de celelate variante. O alt soluie ar fi s se elimine punctul
aberant conform metodei grafice, care indic faptul c punctul izolat
influeneaz panta dreptei de regresie. Atunci punctele sunt aliniate dup o
dreapt a crei ecuaie este: y i 4.0056 0.3454 xi , foarte apropiat de cea
obinut prin metoda Theil.

S-ar putea să vă placă și