Sunteți pe pagina 1din 6

Curs: Conf.univ.dr.

Codruța MARE
Seminar: Asist.univ.drd. Alexandra-Anca PURCEL (orar consultații: Joi, 11:20-12:50)
Notă finală: examen (80%) + seminar* (20%)
*Compunere notă seminar: două teste pe parcursul semestrului (fiecare test fiind format din
10 întrebări iar fiecare întrebare valorând un punct; astfel rezolvarea corectă a celor 10
întrebări va conduce la nota 10 pe respectivul test, rezolvarea corectă a 9 întrebări la nota 9,
etc.) + activitatea de la seminar care poate îmbunătății nota de la teste (două steluțe de la
seminar echivalează o întrebare de la test).
Bibliografie: cartea de statistică descriptivă a catedrei + oricare altă sursă conexă relevantă.

Statistică Descriptivă—Seminar IX

Analiza legăturii dintre variabilele statistice (CAP. III)

C. Variabile cantitative
-se folosesc funcțiile de regresie (dreapta de regresie, hiperbola, parabola, etc.)
Ex.1. Fie repartiția unui grup de firme în raport cu variabilele X-nr de angajați respectiv Y-
costurile medii de producție.

Y/X 10-30 (20) 30-60 (45) 60-100 (80) Total


50-150 (100) 10 7 3 20
150-300 (225) 13 14 12 39
300-500 (400) 6 8 16 30
Total 29 29 31 N=89

a.) Sunt variabilele X si Y independente?


b.) În ipoteza unei forme liniare a funcției de regresie, calculați parametrii funcției.
Interpretați coeficientul de regresie.
c.) Cât de reprezentativă este dreapta de regresie pentru modelarea legăturii dintre X și
Y?
d.) Care este costul mediu de producție pentru 85 angajați?

Rezolvare:
a.)
𝑀(𝑋) ∙ 𝑀(𝑌) = 𝑀(𝑋 ∙ 𝑌)
𝑀(𝑋) = 49.04
𝑀(𝑌) = 255.89
𝑀(𝑋 ∙ 𝑌) = 13435.39
12548.84 ≠ 13435.39 => 𝑋, 𝑌 𝑠𝑢𝑛𝑡 𝑑𝑒𝑝𝑒𝑛𝑑𝑒𝑛𝑡𝑒

1
b.) Obs: Pentru a studia formele posibile ale funcției de regresie, se reprezintă norul de
puncte.
𝑌̅/𝑋=20 = 218.1
𝑌̅/𝑋=45 = 243.1
𝑌̅/𝑋=80 = 303.2

Norul de puncte
320

300

280

260

240

220

200
0 10 20 30 40 50 60 70 80 90

Dreapta de regresie: 𝑌 = 𝑎 + 𝑏𝑋 + 𝜀

unde:
𝑐𝑜𝑣(𝑋,𝑌) 𝑀(𝑋∙𝑌)−𝑀(𝑋)∙𝑀(𝑌)
𝑏= = = 1.44
𝜎𝑥2 𝑀(𝑋 2 )−𝑀(𝑋)2

𝑀(𝑋) = 49.04
𝑀(𝑌) = 255.89
𝑀(𝑋 ∙ 𝑌) = 13435.39
𝑀(𝑋 2 ) = 3019.38

𝑎 = 𝑀(𝑌) − 𝑏 ∙ 𝑀(𝑋) = 185.27

𝑌 = 185.27 + 1.44𝑋

2
c.) Calculăm coeficientul de corelație

𝑐𝑜𝑣(𝑋, 𝑌) 𝑀(𝑋 ∙ 𝑌) − 𝑀(𝑋) ∙ 𝑀(𝑌)


𝑟𝑋𝑌 = = = 0.31 ∈ [0.3; 0.7)
𝜎𝑋 ∙ 𝜎𝑌 √𝑀(𝑋 2 ) − 𝑀(𝑋)2 ∙ √𝑀(𝑌 2 ) − 𝑀(𝑌)2
=> 𝑓𝑢𝑛𝑐ț𝑖𝑎 𝑑𝑒 𝑟𝑒𝑔𝑟𝑒𝑠𝑖𝑒 𝑎𝑟𝑒 𝑜 𝑟𝑒𝑝𝑟𝑒𝑧𝑒𝑛𝑡𝑎𝑡𝑖𝑣𝑖𝑡𝑎𝑡𝑒 𝑚𝑒𝑑𝑖𝑒

𝑀(𝑌 2 ) = 78363.76

Interpretări:

1. 𝑟𝑋𝑌 = 0 => funcția de regresie nu este reprezentativă; X și Y sunt independente


2. |𝑟𝑋𝑌 | ∈ (0; 0.3) => reprezentativitate slabă
3. |𝑟𝑋𝑌 | ∈ [0.3; 0.7) => reprezentativitate medie
4. |𝑟𝑋𝑌 | ∈ [0.7; 1) => reprezentativitate puternică

d.) Pentru X=05 => 𝑌 = 185.27 + 1.44 ∙ 85 = 307.67

3
Ex.3. Se consideră distribuția unor apartamente în funcție de variabilele X-suprafața (m2)
respectiv Y-preț (mii euro).

Y/X 10-20 (15) 20-50 (35) 50-100 (75) 100-160 (130) Total
20-40 (30) 2 3 2 - 7
40-80 (60) 3 4 5 1 13
80-150 (115) 1 2 3 2 8
150-200 (175) - 1 2 3 6
Total 6 10 12 6 34

a.) Stabiliți dacă există legătură între variabilele X și Y.


b.) În cazul în care există legătură precizați intensitatea ei.
c.) În ce măsură influențează suprafața prețul de vânzare al apartamentelor?
d.) Identificați funcția de regresie care ar modela legătura dintre variabile.
e.) În ipoteza unei funcții liniare de regresie, estimați parametrii acesteia.
f.) Interpretați coeficientul de regresie pentru funcția găsită la e.
g.) Cât de reprezentativă este dreapta de regresie pentru modelarea legăturii dintre X și
Y?
h.) Estimați prețul mediu al unui apartament cu o suprafață de 200m2.

Rezolvare:
a.) Pentru a stabili dacă există legătură între două variabile cantitative putem apela la două
metode învățate:

(1) proprietățile mediei, și anume calculăm:

𝑀(𝑋) ∙ 𝑀(𝑌) = 𝑀(𝑋 ∙ 𝑌)


𝑀(𝑋) = 62.35
𝑀(𝑌) = 87.06
𝑀(𝑋) ∙ 𝑀(𝑌) = 5428,19
𝑀(𝑋 ∙ 𝑌) = 6356.62
5428,19 ≠ 6356.62 => 𝑋, 𝑌 𝑠𝑢𝑛𝑡 𝑑𝑒𝑝𝑒𝑛𝑑𝑒𝑛𝑡𝑒

(2) varianța explicită, și anume arătăm că aceasta este mai mare decât zero:

Obs: Trebuie determinat în baza raționamentului economic (sau în baza unui subpunct al
problemei – dacă este cazul, care este variabila dependentă și cea independentă). În contextul
acestui exercițiu, adițional raționamentului economic, ne putem da seama în baza
subpunctului c.) că prețul apartamentelor este influențat de suprafața acestora => prețul este
variabila dependentă (endogenă) iar suprafața cea independentă (exogenă/factorul).

𝑉𝑒𝑥𝑝𝑙𝑖𝑐𝑖𝑡ă = 611.44 > 0 => ∃ 𝑙𝑒𝑔ă𝑡𝑢𝑟ă î𝑛𝑡𝑟𝑒 𝑣𝑎𝑟𝑖𝑎𝑏𝑖𝑙𝑒

b.) 𝑉𝑡𝑜𝑡𝑎𝑙ă (𝑣𝑎𝑟𝑖𝑎𝑛ț𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑖𝑙𝑒𝑖 𝑑𝑒𝑝𝑒𝑛𝑑𝑒𝑛𝑡𝑒) = 2498.70 =>

4
𝑉𝑒𝑥𝑝𝑙𝑖𝑐𝑖𝑡ă 611.44
𝑅𝑌𝑋 = √ =√ = 0.49 ∈ [0.3; 0.7) => 𝑙𝑒𝑔ă𝑡𝑢𝑟ă 𝑑𝑒 𝑖𝑛𝑡𝑒𝑛𝑠𝑖𝑡𝑎𝑡𝑒 𝑚𝑒𝑑𝑖𝑒
𝑉𝑡𝑜𝑡𝑎𝑙ă 2498.70

𝑉𝑒𝑥𝑝𝑙𝑖𝑐𝑖𝑡ă 611.44
c.) 𝑅𝑌𝑋
2
= = 2498.70 = 0.24 = 24% =>
𝑉𝑡𝑜𝑡𝑎𝑙ă

𝑝𝑟𝑒ț𝑢𝑙 𝑎𝑝𝑎𝑟𝑡𝑎𝑚𝑒𝑛𝑡𝑒𝑙𝑜𝑟 𝑑𝑒𝑝𝑖𝑛𝑑𝑒 î𝑛 𝑝𝑟𝑜𝑝𝑜𝑟ț𝑖𝑒 𝑑𝑒 24% 𝑑𝑒 𝑠𝑢𝑝𝑟𝑎𝑓𝑎ț𝑎 𝑎𝑐𝑒𝑠𝑡𝑜𝑟𝑎, 𝑖𝑎𝑟 î𝑛 𝑝𝑟𝑜𝑝𝑜𝑟ț𝑖𝑒 𝑑𝑒 76% 𝑑

d.)
̅̅̅̅𝑋=15 = 59.17
𝑌/
̅̅
𝑌/̅̅𝑋=35 = 73.5
̅𝑌/
̅̅̅𝑋=75 = 87.92
̅̅̅̅𝑋=130 = 135.83
𝑌/

Norul de puncte
150
140
130
120
110
100
90
80
70
60
50
0 20 40 60 80 100 120 140

e.) Dreapta de regresie: 𝑌 = 𝑎 + 𝑏𝑋 + 𝜀

unde:
𝑐𝑜𝑣(𝑋,𝑌) 𝑀(𝑋∙𝑌)−𝑀(𝑋)∙𝑀(𝑌)
𝑏= 2 = = 0.63
𝜎𝑋 𝑀(𝑋 2 )−𝑀(𝑋)2

𝑀(𝑋) = 62.35
𝑀(𝑌) = 87.06
𝑀(𝑋) ∙ 𝑀(𝑌) = 5428,19
𝑀(𝑋 ∙ 𝑌) = 6356.62
𝑀(𝑋 2 ) = 5367.65

5
𝑎 = 𝑀(𝑌) − 𝑏 ∙ 𝑀(𝑋) = 47.78

𝑌 = 47.78 + 0.63𝑋

f.) Interpretare b: la o creștere cu o unitate a suprafeței apartamentelor, prețul acestora


crește cu 0.63 unități, in medie, ceteris paribus.

g.) Calculăm coeficientul de corelație

𝑐𝑜𝑣(𝑋, 𝑌) 𝑀(𝑋 ∙ 𝑌) − 𝑀(𝑋) ∙ 𝑀(𝑌)


𝑟𝑋𝑌 = = = 0.48 ∈ [0.3; 0.7)
𝜎𝑋 ∙ 𝜎𝑌 √𝑀(𝑋 2 ) − 𝑀(𝑋)2 ∙ √𝑀(𝑌 2 ) − 𝑀(𝑌)2
=> 𝑓𝑢𝑛𝑐ț𝑖𝑎 𝑑𝑒 𝑟𝑒𝑔𝑟𝑒𝑠𝑖𝑒 𝑎𝑟𝑒 𝑜 𝑟𝑒𝑝𝑟𝑒𝑧𝑒𝑛𝑡𝑎𝑡𝑖𝑣𝑖𝑡𝑎𝑡𝑒 𝑚𝑒𝑑𝑖𝑒

𝑀(𝑌 2 ) = 10077.94

Interpretări:

1. 𝑟𝑋𝑌 = 0 => funcția de regresie nu este reprezentativă; X și Y sunt independente


2. |𝑟𝑋𝑌 | ∈ (0; 0.3) => reprezentativitate slabă
3. |𝑟𝑋𝑌 | ∈ [0.3; 0.7) => reprezentativitate medie
4. |𝑟𝑋𝑌 | ∈ [0.7; 1) => reprezentativitate puternică

h.) Pentru X=200 => 𝑌 = 47.78 + 0.63 ∙ 200 = 173.78 𝑚𝑖𝑖 𝐸𝑈𝑅

S-ar putea să vă placă și