Sunteți pe pagina 1din 6

Nume și prenume: ..........................................................

Grupa: ..........................................................................

 Subiect pentru examenul la disciplina ANALIZĂ DE DATE PENTRU AFACERI 

Problema I. A fost efectuat un studiu pentru a se stabili relația dintre costurile operaționale înregistrate
de o serie de companii aeriene (milioane dolari), lungimea zborului (mile), viteza avioanelor analizate
(mile pe oră) și numărul pasagerilor (mii):

A. Se consideră următorul output privind descrierea datelor folosite în model:


> str(data1)
Data.frame: 31 obs. of 4 variables:
$ Lungimea zborului : num 57 270 100 176 142 51 175 112 131 174 ...
$ Viteza avionului : num 133 216 140 182 167 134 175 150 179 191 ...
$ Numărul pasagerilor : num 20200 56928 183 11869 41097 ...
$ Costurile operaționale : num 116.3 43 141.5 50.6 51 ...

1. Scrieţi pe spaţiile punctate denumirea variabilelor din model:


Variabila 1: .................................................. lungimea zborulul
Variabila 2: .................................................. viteza avionului
Variabila 3: .................................................. numarul pasagerilor
Variabila 4: .................................................. costurile operationale
2. Scrieţi tipul fiecărei variabile în parte
Variabila 1: .................................................. num
Variabila 2: .................................................. num
Variabila 3: .................................................. num
Variabila 4: .................................................. num
3. Câte observaţii au fost incluse în setul de date: .................................... 31 obs

B. Se consideră următorul output privind statisticile descriptive pentru datele analizate:


> summary(data)
Lungimea zborului Viteza avionului Numărul pasagerilor Costurile operaționale
Min. : 45.0 Min. :116.0 Min. : 183 Min. : 42.3
1st Qu.: 71.0 1st Qu.:141.5 1st Qu.: 2500 1st Qu.: 50.8
Median :100.0 Median :150.0 Median : 6500 Median : 75.4
Mean :129.1 Mean :161.3 Mean :14492 Mean :113.5
3rd Qu.:174.5 3rd Qu.:181.5 3rd Qu.:19100 3rd Qu.:120.8
Max. :293.0 Max. :216.0 Max. :56928 Max. :820.9

> sd(data1$Lungimea zborului)


[1] 73.21264
> sd(data1$Viteza avionului)
[1] 26.8514
> sd(data1$Numărul pasagerilor)
[1] 16824.25
> sd(data1$Costurile operaționale)
[1] 142.7046

4. Completaţi tabelul statisticilor descriptive pentru variabilele analizate:


Variabilă Minim Medie Mediană Maxim Abatere standard
Lung zborului 45.0 129.1 100 293 73.21264

5. Interpretaţi valoarea mediei pentru variabila „Viteza avionului”:


Un svion zboarain medie cu viteza de 161.3 mile/ora
6. Spuneți care este viteza minimă și maximă a avioanelor analizate:
Min 116 si max 216
7. Cum vi se pare că este valoarea mediei comparativ cu cea a medianei pentru variabila „Viteza
avionului”? Interpretaţi acest rezultat din punct de vedere statistic!
Media este 161.3 si mediana este 150, deci majoritatea datelor sunt sub medie
8. Cum vi se pare că este valoarea abaterii standard comparativ cu cea a mediei pentru variabila
„Viteza avionului”? Interpretaţi acest rezultat din punct de vedere statistic!
Ab standard este de26.85 iar media este 161.3. putem spune ca abaterea standard reprezinta o
fractiune destul de mica din medie ceea ce insewamna ca distributia este ingusta
9. Pentru care dintre variabilele următoare abaterea standard reprezintă un procent mai mare din
medie?
a. Costurile operaționale
b. Lungimea zborului
c. Viteza avionului
d. Numărul pasagerilor
Pva=sd/m = 26.85/161.3

C. Se consideră următorul output în R:


Call:
lm(formula = data1$Costuri_operationale ~ data1$Lungimea_zborului + data1$Viteza_avionului +
data1$Numar_pasageri)

Residuals:
Min 1Q Median 3Q Max
-143.86 -59.47 -27.30 23.49 549.50

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 8.363e+02 2.911e+02 2.873 0.00783 **
data1$Lungimea_zborului 8.894e-01 1.028e+00 0.865 0.39447
data1$Viteza_avionului -5.221e+00 2.473e+00 -2.112 0.04413 *
data1$Număr_pasageri 3.018e-04 2.218e-03 0.136 0.89277
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 125 on 27 degrees of freedom


Multiple R-squared: 0.3089, Adjusted R-squared: 0.2321
F-statistic: 4.023 on 3 and 27 DF, p-value: 0.01731

10. Modelul precedent este:


a. Model de regresie liniară simplă
b. Model de regresie liniară multiplă
c. Model de regresie logistică
d. Model de regresie neliniară
e. Model de regresie logaritmică
11. Variabila dependentă este:
a. Costurile operaționale
b. Lungimea zborului
c. Viteza avionului
d. Numărul pasagerilor
12. Variabilele independente sunt (răspuns multiplu):
a. Costurile operaționale
b. Lungimea zborului
c. Viteza avionului
d. Numărul pasagerilor
13. Consideraţi că modelul din output-ul precedent este statistic semnificativ? Justificaţi!
0.01731 < 0.05 inseamna ca modelul este seminificativ
14. Considerați că între variabila „Lungimea zborului” și variabila „Costuri operaționale” există o
relație statistic semnificativă?
Da o Nu o
15. Justificaţi alegerea din grila precedentă:
Nu este o rel semif pentru ca p 0.039447 este <0.05
16. Interpretaţi rezultatul precedent:
Lung zborului nu infu costurile oprationaleintr un mod statistcsemnificativ
17. Considerați că între variabila „Viteza avionului” și variabila „Costuri operaționale” există o relație
statistic semnificativă?
Da o Nu o
18. Justificaţi alegerea din grila precedentă:
Exist o rel semif ptca 0.04 este mai mic ca0.05
19. Interpretaţi rezultatul precedent:
Viteza avioonului influ costurile operationale in mod semificativ
20. Puterea explicativă a modelului, exprimată în procente, este:
a. 47,93%
b. 30,89%
c. 0,28%
d. 23,21%
e. 1,73%
21. Interpretaţi puterea explicativă a modelului:
30% din var costurilor se dat variabilrlor indep din model
22. Interpretați valoarea coeficientului b1 din modelul de regresie precedent:
8.894e-01cand lung zborului creste cu o unitate var depedndenta creste cu 0.8%
23. Interpretați valoarea coeficientului b2 din modelul de regresie precedent:
Cand viteza avionului creste cu o unitate costurile operationale scadcu 5.221

Problema II. Răspundeţi următoarelor cerinţe:


24. Care din variabilele următoare sunt categoriale?
a. Alegerea locației pentru a petrece vacanța (mare, munte, străinătate, etc.);
b. Veniturile anuale
c. Studiile unei persoane
A = a. + b. B = a. + c. C = b. + c. D = toate E = niciuna
25. Presupunem că avem următorii coeficienţi ai unei regresii logistice: b_0 = 2,5, b_1 = 2,1 şi b_2 = -
1,5. De asemenea avem o observaţie cu următoarele valori pentru variabila independentă: x_1 =
5 şi x_2 = 3. Care este valoarea „logit” pentru această observaţie?
a. – 1
b. 2
c. 0
d. 0,1
e. 8,5

26. Este selectat un eşantion reprezentativ format din 200 de elevi. Dintre aceştia, 55 spun că
întenţionează să urmeze cursuri de dans sportiv în vacanţa de vară. Care este procentul celor
intervievați, care vor să urmeze cursurile de dans în vacanţa de vară?
a. 75,5% (0,725)
b. 27,50% (0,275)
c. 36% (0,36)
d. 64% (0,64)
e. 19% (1,85)
27. Referitor la enunţul precedent, care este şansa (odd) ca un elev să urmeze cursurile de dans în
vacanţa de vară?
a. 1,78
b. 2,00
c. 0,54
d. 1,85
e. 0,37

Problema III. În scopul îmbunătățirii calității rezultatelor la învățătură, o universitate decide să ofere
acces gratuit la baze de date internaționale, pentru a permite studenților să se documenteze cât mai
bine pentru examene și pentru pregătirea temelor de acasă. Se analizează numărul orelor petrecute
căutând materiale de specialitate de un grup de 200 de studenţi înainte şi după ce s-a luat decizia ca
accesul studenților la bazele de date internaționale să fie gratuit atât de la facultate cât și de acasă.
Variabilele luate în calcul sunt următoarele: „Tratament” - o variabilă dummy, care ia valoarea 1 pentru
o observație din grupul de tratament (studenţi de la facultatea unde s-a luat această decizie) și ia
valoarea 0 pentru observațiile din grupul de control (student de la o facultate unde nu s-a luat această
decizie) şi „Post_Program” – o variabilă dummy, care ia valoarea 1 pentru toate evaluările realizate
după implementarea programului și 0 pentru cele anterioare acestuia.

Avem următorul output în R:


> mean(tratament_pre$Studiu)
[1] 98.61333
> mean(tratament_post$Studiu)
[1] 145.0256
> mean(control_pre$Studiu)
[1] 99.01408
> mean(control_post$Studiu)
[1] 99.44737

Call:
lm(formula = performanta$Studiu ~ performanta$Post_Program +
performanta$Tratament + performanta$Post_Program * performanta$Tratament)

Residuals:
Min 1Q Median 3Q Max
-29.0141 -6.6133 0.5526 6.9859 24.5526

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 99.0141 1.1524 85.917 <2e-16 ***
performanta$Post_Program 0.4333 1.6028 0.270 0.787
performanta$Tratament -0.4008 1.6079 -0.249 0.803
performanta$Post_Program:performanta$Tratament 45.9790 2.2439 20.491 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 9.711 on 296 degrees of freedom


Multiple R-squared: 0.814, Adjusted R-squared: 0.8121
F-statistic: 431.8 on 3 and 296 DF, p-value: < 2.2e-16

28. Scrieţi modelul de regresie:


Studiu – 99.0141+0.4333*post program* - 0.4008*tratament+45.975*post program tratament
29. Interpretaţi coeficientul b3 din modelul de regresie precedent:
B3 este diferenta in diferenta dintre grupul de tratament si cel placebo.
30. Consideraţi că oferirea de acces gratuit la bazele de date internaționale a făcut diferenţa,
statistic semnificativ, faţă de perioada anterioară implementării acestei decizii? Justificaţi!
Termenul de interactiune are u p val mai mic de 0.05 ceea ce inseamna ca dif in dif este satistic
semificativ

Observaţie: Timp de lucru: 1,5 ore.


Fiecare grilă corect rezolvată va fi notată cu 0,2 puncte. Din oficiu veţi primi 1 punct. Punctajului obţinut
pentru lucrarea scrisă i se adaugă cel obţinut la seminar.

S-ar putea să vă placă și