Documente Academic
Documente Profesional
Documente Cultură
Regresie
Regresie
CAPITOLUL 6
ANALIZA STATISTICĂ A LEGĂTURILOR DINTRE
VARIABILE
Cuvinte cheie:
- coeficientul de corelaţie;
- covarianţa;
- coeficientul de asociere propus de Yule;
- coeficientul de corelaţie a rangurilor Spearman;
- coeficientul de corelaţie a rangurilor Kendall
- indicele sau raportul de corelaţie.
- metoda regresiei
y i = f ( xi ) = a + b ⋅ xi .
n ⋅ a + b ⋅ ∑ xi = ∑ y i
a ⋅ ∑ xi + b ⋅ ∑ xi = ∑ xi ⋅ y i .
2
y i = f ( xi ) = a + b ⋅ xi + c ⋅ xi2 .
n ⋅ a + b ⋅ ∑ xi + c ∑ xi2 = ∑ y i
a ⋅ ∑ x i + b ⋅ ∑ x i + c ⋅ ∑ x i = ∑ x i ⋅ y i
2 3
a ⋅ ∑ xi + b ⋅ ∑ xi + c ⋅ ∑ xi = ∑ xi ⋅ y i .
2 3 4 2
Regresia multiplă.
Regresia multiplă presupune luarea în considerare a influenţei concomitente a doi
sau mai mulţi factori. De exemplu, cea mai simplă funcţie polinomială de gradul unu
este:
y x1 , x2 ,... xk = a 0 + a1 ⋅ x1 + a 2 ⋅ x 2 + ... + a k ⋅ x k .
a 0 ⋅ ∑ x 2i +a1 ⋅ ∑ x1i ⋅ x 2i + ... + a1 ⋅ ∑ x 2i ⋅ x1i + ...a k ⋅ ∑ x 2i ⋅ x ki = ∑ x 2i ⋅ y i
...........
a 0 ⋅ ∑ x ki + a1 ⋅ ∑ x1i ⋅ x ki + ... + a1 ⋅ ∑ x1i ⋅ x ki + ... + a k ⋅ ∑ x ki2 = ∑ x ki ⋅ y i .
n ⋅ a + b ⋅ ∑ xi ⋅ n x = ∑ y i ⋅ n y
.
a ⋅ ∑ xi ⋅ n x + b ⋅ ∑ xi ⋅ n x = ∑∑ xi ⋅ y i ⋅ n xy
2
S yi / Yi =
∑(y i − Yi ) 2
.
n
S yi / Yi
e= ⋅ 100 .
y
∑ ( y i − Yi ) 2
D = 1 −
2
2
⋅ 100 .
∑ ( y i − y )
1
cov( x, y ) =
n
∑ ( xi − x )( yi − y ).
Dacă rezultatul este egal cu zero sau tinde către zero atunci între variabile nu
există legătură statistică. Dacă rezultatul este pozitiv legătura dintre variabile este directă.
Dacă rezultatul este negativ legătura dintre variabile este inversă. Valoarea maximă pe
care o poate lua covarianţa a două variabile este egală cu produsul dintre abaterea medie
pătratică a celor două variabile şi este întâlnită în cazul unei legături perfecte:
cov( x, y ) max = σ x ⋅ σ y .
rxy =
cov( x, y )
=
∑ (x i − x )( y i − y )
.
σ x ⋅σ y n ⋅σ x ⋅σ y
De asemenea, este folosită şi următoarea formulă dedusă din cea de mai sus:
n ⋅ ∑ x i ⋅ y i − ∑ xi ⋅ ∑ y i
rxy = .
[n ⋅ ∑ xi2 − (∑ xi ) 2 ][n ⋅ ∑ y i2 − (∑ yi ) 2 ]
n ⋅ ∑∑ xi ⋅ y i ⋅ n xy − ∑ xi ⋅ n x ⋅ ∑ y i ⋅ n y
rxy = .
[n ⋅ ∑ xi2 ⋅ n x − (∑ xi ⋅ n x ) 2 ][n ⋅ ∑ y i2 ⋅ n y − (∑ y i ⋅ n y ) 2 ]
rxy
t= ⋅ n − 2.
1 − rxy2
Pentru a accepta ipoteza unei legături reale, valoarea calculată a lui “t” trebuie să
fie mai mare decât valoarea tabelată pentru “n-2” grade de libertate.
R xy = 1−
∑(y i − Yi ) 2
.
∑(y i − y) 2
X Y Total
Y1 Y2
X1 A B A+B
X2 C D C+D
Total A+C B+D A+B+C+D
A⋅ D − B ⋅C
Q= .
A⋅ D + B ⋅C
6 ⋅ ∑ d i2
rS = 1 − .
n(n − 1)
2⋅S
rK = .
n(n − 1)
Probleme şi aplicaţii
6.1. Potrivit publicaţiilor OCDE, ţările membre s-au caracterizat în anul 1998 prin
niveluri ale performanţei interne (exprimate prin indicatorul PNB/locuitor) şi,
respectiv, ale performanţei externe (sintetizate sub forma exportului de bunuri şi
servicii/locuitor) cuprinse în tabelul de mai jos:
mii USD
Ţara PNB/locuitor Export de bunuri şi
servicii/locuitor
Australia 18,7 4,5
Austria 26,2 10,8
Belgia 24,4 17,4
Canada 19,1 8,2
R. Cehă 5,4 2,9
R. Coreea 6,4 3,7
Danemarca 32,9 11,6
Elveţia 36,9 14,4
Finlanda 24,5 9,3
Franţa 24.4 6,3
Germania 26,1 6,8
Grecia 11,4 1,8
Islanda 29,8 9,9
Irlanda 22,3 16,8
Italia 20,3 5,5
Japonia 30,0 3,7
Luxemburg 38,6 34,0
Marea Britanie 23,0 6,2
Mexic 4,4 1,3
Norvegia 32,9 14,4
Noua Zeelandă 13,8 4,9
Olanda 24,1 13,0
Polonia 3,9 0,9
Portugalia 10,6 3,2
Spania 14,1 3,8
S.U.A. 30,5 3,6
Suedia 25,9 11,3
Turcia 3,2 0,7
Ungaria 4,7 1,9
Sursa: OECD în Figures: Statistics on the Member Contries 1999 Edition, Paris,
1999
Se cere:
Să se precizeze rolul fiecărei variabile în analiza legăturii şi să se observe sensul
şi forma legăturii între cele două variabile folosind metoda seriilor paralele şi metoda
grafică.
Rezolvare
Potrivit teoriei economice a relaţiilor internaţionale, performanţa exterioară a unei
ţări depinde, în bună măsură, de cum şi ce anume produce şi oferă spre export economia
acelei ţări. Prin urmare, variabila PNB/locuitor se consideră a fi cauza sau variabila
independentă (explicativă sau factorială), variantele ei notându-se cu xi, iar variabila
export/locuitor este considerată efect sau variabilă dependentă (explicată sau rezultativă),
Statistică teoretică şi economică
n a + b ∑ x i = ∑ y i
a ∑ x i + b∑ x i = ∑ x i y i
2
se particularizează astfel:
n∑ x i y i − ∑ x i ∑ y i
r=
[n∑ x 2
i
2
][
− (∑ x i ) n∑ y i2 − (∑ y i )
2
]
Introducând datele de mai sus în această relaţie, rezultă r = + 0,7101, ceea ce
înseamnă că între PNB/locuitor şi exportul/locuitor al celor 29 ţări există în anul 1998 o
legătură directă de intensitate medie.
¾ Cum poate fi apreciată capacitatea funcţiei de regresie de a descrie
variaţia exportului/locuitor?
Răspuns
De obicei, se procedează la aflarea valorilor teoretice Yi ale caracteristicii
rezultative, înlocuind în funcţia identificată argumentul xi cu valorile succesive din
tabelul 61.1. (coloana PNB/locuitor).
Mulţimea diferenţelor (yi-Yi) alcătuieşte un domeniu de dispersie în jurul funcţiei
de regresie. Intensitatea împrăştierii se exprimă print-un coeficient de eroare a regresiei –
formă particulară a coeficientului de variaţie întâlnit la analiza seriilor de repartiţie (vezi
şi problemea nr. 67).
Ţinând seama de faptul că la punctul anterior al problemei s-a aflat coeficientul de
corelaţie r = 0,7191 şi că acest coeficient este cazul particular al indicatorului general de
comensurare parametrică a intensităţii legăturii dintre variabile – raport de corelaţie, se
ştie că prin ridicarea la pătrat şi înmulţirea cu 100 se află coeficientul de determinaţie
(D):
D = r2 ⋅ 100 = 0,71012 ⋅100 = 50,43%
Coeficientul de determinaţie este o altă modalitate de apreciere a calităţii funcţiei
de regresie. El arată că, funcţia sintetizează 50,43% din variaţia totală a
exportului/locuitor al ţărilor membre ale OCDE în anul 1998. Cota ridicată a
determinaţiei arată implicit faptul că PNB/locuitor este un factor important de influenţă,
iar aprecierea liniară a acestei influenţe satisfăcătoare.
Nivel de calificare
Calificat 18 7
Necalificat 9 16
ad − bc 18 ⋅ 16 − 7 ⋅ 9
Q= = = +0,641
ad + bc 18 ⋅ 16 + 7 ⋅ 9
Statistică teoretică şi economică
Vârsta (ani)
20 – 40 7 956 5 712 1 682 15 350
40 – 60 7 548 4 703 1 025 13 276
peste 60 3 718 842 122 4 682
Total 19 222 11 257 2 829 33 308
Se cere:
¾ Să se estimeze parametrii funcţiei liniare de regresie care exprimă influenţa
vârstei asupra dorinţei de a utiliza surse diversificate de informare.
Rezolvare
Sistemul de ecuaţii normale pentru estimarea parametrilor unei drepte:
f (xi) = a + b xi ,
atunci când analiza de regresie se face pe baza unei repartiţii bidimensionale de frecvenţe
se scrie astfel:
n a + b∑ x i n x = ∑ y i n y
a ∑ x i n x + b∑ x i n x = ∑ ∑ x i y i n xy
2
n∑ ∑ x i y i n xy − ∑ x i n x ⋅ ∑ y i n y
r= = −0,1688 ,
[n∑ ( x n ) ][n∑ y
2
i x
2 2
i n y − (∑ y i n y ) 2 ]
ceea ce exprimă o legătură inversă slabă între cele două variabile.
Observaţie: Prin ridicarea la pătrat şi înmulţirea cu 100 rezultă un coeficient de
determinaţie de numai 2,8%. Interpretarea acestui rezultat: Dacă se consideră o influenţă
liniară a lui X asupra lui Y, atunci vârsta diferită a persoanelor explică doar 2,8% din
variaţia disparibilităţii cititorilor de a folosi concomitent surse (ziare) diferite pentru
informarea lor.
¾ Este statistic consistentă o influenţă atât de redusă?
Statistică teoretică şi economică
Răspuns
Aplicarea testului Student (t):
r
t= n − p = 31,2544 ,
1− r2
y1 − y 0
Ry = ⋅ 100 = 6,6%
Y0
Se cere:
¾ să se reprezinte grafic legătura dintre cele două variabile;
¾ să se determine şi interpreteze parametrii funcţiei de regresie liniară;
Răspuns: Yˆi = 47,93 − 2,133 ⋅ x i
Statistică teoretică şi economică
Se cere:
¾ să se reprezinte grafic relaţia export-import;
¾ să se determine şi comenteze parametrii funcţiei liniare de regresie;
Răspuns: a = 0,35; b = 0,2233
Notă: Ecuaţia liniară se consideră de forma yi = a + b ⋅ xi
¾ să se caracterizeze intensitatea legăturii dintre export şi import
Răspuns: R = 0,78
6.7. Este cunoscut faptul că există o legătură inversă între dinamica producţiei
industriale şi rata şomajului, astfel încât, atunci când rata şomajului scade,
producţia industrială creşte şi invers. Să se verifice această ipoteză folosind
următoarele date:
Se cere:
¾ Să se determine şi interpreteze coeficientul de corelaţie;
Statistică teoretică şi economică
Răspuns: r = - 0,36
¾ Să se testeze semnificaţia statistică a coeficientului obţinut, admiţând o eroare
α = 0,05
Răspuns: tcalc = 1,091, faţă de nivelul critic tabelat de 2,306 pentru α = 0,05 şi k = 8
grade de libertate
¾ Să se determine coeficienţii de corelaţie neparametrică Spearman şi Kendall .
Răspuns: CSpearman = - 0,36; CKendall = - 0,16
¾ Să se estimeze şi interpreteze parametrii funcţiei liniare de regresie.
Răspuns: a = 7.59; b = -0.256
6.8. Dintr-o anchetă statistică efectuată de o firmă asupra unor aspecte cu caracter
social şi economic, au rezultate următoarele aprecieri:
Se cere:
¾ Să se stabilească intensitata asocierii dintre cele două feluri de aprecieri
folosind de coeficienţii de corelaţie neparametrică (Spearman şi Kendall) între
cele două opţiuni;
Răspuns: CSpearman = -0,36; CKendall = - 0,16.
6.9. Cercetând relaţia dintre numărul investitorilor străini provenind dintr-o ţară şi
volumul capitalului investit de aceştia în România, este logic să se avanseze ipoteza
unei asocieri directe între cele două variabile. Această ipoteză se studiază folosind
datele referitoare la primele 40 de ţări care au efectuat investiţii în România în anul
″t″.
În tabelul de mai jos, cele două variabile numerice ″număr investitoi″ şi ″capital
investit″ au fost comprimate sub forma a două variabile alternative ţinând cont de
numărul mediu al investitorilor din fiecare ţară şi respectiv de volumul mediu al
capitalului provenit din fiecare ţară.
Σxi = 15;
Σyi = 10;
Σxi2 = 55; şi
Σxiyi = 37 (i = 1,5 ).
a) ŷ = 0,7x;
b) ŷ = 0,7 – 0,1x;
c) ŷ = 0,1 – 0,7x;
d) ŷ = 2 – 0,7x;
e) ŷ = 3,7 – 5,5x;
6.13. Să se analizeze evoluţia pieţei televiziunii prin cablu din România, folosind
datele referitoare la perioada 1990-1999 preluate din revista ″Capital″ nr.
47/23 noiembrie 2000:
ANUL 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999
Tarif mediu 0,01 0,03 0,40 0,80 1,30 1,80 2,30 2,70 3,00 3,20
lunar (USD)
Statistică teoretică şi economică
Nr. abonaţi 0,70 0,90 1,00 1,50 2,00 2,50 3,30 3,20 3,10 3,10
(milioane)
Recomandare
Se va elabora o diagramă de corelaţie. Pe baza acestei diagrame se alege forma
funcţiei de regresie. Pentru aprecierea intensităţii legăturii, se va folosi raportul de
corelaţie. Se pot folosi şi coeficienţi de elasticitate a evoluţiei, numărului de abonaţi faţă
de mişcarea tarifului mediu lunar, în diferitele intervale ale perioadei analizate.
6.14. Este cunoscut faptul că există o legătură inversă între producţia industrială şi
rata şomajului, astfel încât atunci când rata şomajului scade, producţia industrială
creşte. În acest sens se cunosc următoarele date:
(date convenţionale)
Ţara Producţia industrială Rata şomajului
(% de modificare) (%)
Australia 6,2 7,4
Belgia 0,7 10,9
Canada 5,4 7,7
Germania 2,3 8,9
Olanda 0,1 14,0
Italia 7,8 15,7
Japonia 12,8 2,6
Elveţia 5,6 20,1
Marea Britanie 3,3 9,0
S.U.A. 5,7 5,4
Se cere:
1. să se determine ecuaţia de regresie dintre cele două variabile;
2. să se calculeze coeficentul de corelaţie;
3. să se calculeze coeficientul rangurilor Spearman şi Kendall şi să se compare cu
rezultatul obţinut la punctul anterior.
Se cere:
1. utilizând metoda celor mai mici pătrate şi cunoscând că cele două fenomene evoluează
exponenţial să se determine ecuaţia de regresie;
2. să se calculeze, pe baza ecuaţiei de regresie obţinută la punctul anterior, numărul de
bacterii după şapte ore.
6.16. Preţul pe bucată în mii lei este dat de variabila “x” şi numărul de produse
vândute pe lună timp de 8 luni “y” sunt reprezentate în tabelul următor:
(date convenţionale)
X 12 13 14 12 14 15 17 19
Y 28 20 20 25 16 12 10 7
Se cere:
1. găsiţi ecuaţia de regresie liniară;
2. estimaţi numărul de produse vândute atunci când preţul pe unitate este 18.
(date convenţionale)
Suprafaţa comercială (mp) Valoarea vânzărilor (mil.lei)
50 8
120 14
180 20
210 24
250 30
300 42
Se cere:
1. să se stabilească parametrii ecuaţiei de regresie dintre cele două variabile;
2. să se determine coeficientul de corelaţie dintre variabile;
3. dacă managerul magazinului doreşte să mărească suprafaţa destinată vânzării la 350
mp., să se determine valoarea scontată a vânzărilor având la bază legătura liniară dintre
variabile.
Se cere:
1. considerând relaţia dintre export şi import de formă liniară, să se determine şi să se
interpreteze parametrii funcţiei de regresie;
2. să se măsoare şi să se comenteze intensitatea legăturii dintre cele două variabile
folosind o metodă parametrică şi una neparametrică.