1. Analize statistice
Se consideră o agenţie de turism care organizează tururi pentru vizitarea cetăţilor medievale romaneşti.
Rezervări pentru acest tip de ofertă pot fi făcute în filialele sale din Bucureşti şi Sibiu. Avem la dispoziţie,
pentru fiecare luna a anului precedent, date privind cheltuielile cu publicitatea efectuate de fiecare
filială pentru promovarea ofertei (exprimate în moneda Euro), precum şi numărul de rezervări pentru
care s-a depus un avans.
Problema 4: Să se determine ecuaţia legăturii dintre cele două variabile analizate în problemele
precedente.
Paşi de urmat:
1. Având tabela Turism deschisă, selectăm Analyze Regression Linear Regression…
2. Alocaţi corect rolurile prelucării.
3. Analizaţi rezultatele obţinute şi identificaţi coeficienţii ecuaţiei de regresie listaţi în coloana
Parameter Estimate.
Problema 5: Datele conţin numărul de curse dintre doua localităţi şi sunt împărţite după
momentul zilei in care cursa trebuia sa plece si arata daca a existat o întârziere mai mare de 15
minute. Obiectivul este sa se determine daca este o legătura între momentul zilei şi
punctualitate.
Paşi de urmat:
1. Să se importe fişierul Trenuri.xls
2. Din fluxul de procese, selectăm Tasks Describe Table Analysis
3. Se procedează ca în capturile de ecran:
Rezultatul conţine o tabelă de frecvenţe şi este urmată de teste de asociere, incluzând date
pentru testul Fisher. Conform acestui test, în acest exemplul, probabilitatea de a obţine o
valoare chi-pătrat cel puţin egală cu cea din tabel (24,1388) este mai mică de 0,0001.
Exerciţiu: Importaţi fişierul Tratamente.xlsx şi identificaţi legătura dintre aplicarea unor
tratamente şi modificarea activităţii inimii. Fişierul conţine numărul de persoane care au fost sau
nu supuse unor tratamente şi care au sau nu pulsul modificat. Obiectivul este să se determine
daca există o legătura între aplicarea tratamentelor şi activitatea inimii. Modificaţi datele
importate astfel încât numărul de persoane fără tratamente cu pulsul crescut scade de la 30 la
29, iar numărul de persoane fără tratamente cu pulsul normal creşte de la 25 la 26. Reluaţi
analiza şi interpretaţi rezultatele.
În exemplul următor vom realiza prognoza pe termen scurt pentru următoarele 23, respectiv 12
de intervale de timp (cca. 4, respectiv 2 ore).
Importăm în SAS datele de intrare (peste 50,000 de înregistrări) stocate în fişierul
time_series_prognoza.xlsx.
În continuare, sunt descrise câteva forme ale modelului ARIMA(p,d,q):
- model autoregresiv ARIMA(p,0,0) , de ordin p
- model cu medie mobilă ARIMA(0,0,q), de ordin q
- model mixt ARIMA (p,0,q), cunoscut şi ca ARMA
- model autoregresiv integrat si medie mobile ARIMA(p,d,q), unde d este ordinul de
diferenţiere.
Pentru a aplica modelul ARIMA (1,0,0) vom selecta Tasks Time Series Arima Modeling and
Forecasting.
Pentru setarea analizei urmăm paşii:
În tabul Data selectăm Norm pentru Time series variable şi Write time pentru Time ID variable.
În tabul Estimation Enable estimation steps bifăm Perform estimation steps. În tabul Model
definition, adăugăm 1 în caseta Factors for AR model. În tabul Forecasting Enable
forecasting steps, bifăm Perform forecasting steps. În tabul Options, la Time interval between
option selectăm Number of units, la Time units per interval introducem 600, iar la Number of
intervals to forecast introducem 23. În tabul Plots and Results, bifăm Forecasts şi Save
forecasts.
Run
În tabul Results obţinem un raport pe care îl analizăm. În tabul Output Data exportăm
rezultatele într-un fişier Excel pentru a calcula eroarea medie absolută în procente - MAPE
(Mean Absolute Percentage Error). Se vor prelua din fişierul time_series_complet.xls datele
efectiv înregistrate din 31.12.2014 (de la 20:00 la 23:50) şi se vor compara cu datele din aceeaşi
perioadă, prognozate cu modelul ARIMA.
Acest indicator statistic arată acurateţea modelului. MAPE (eroarea medie absolută în procente)
calculat pentru 4 ore din 31.12.2014 este 13,32%, iar MAPE pentru 2 ore este 9,58%.
Exerciţiu: Să se realizeze ARIMA (1,0,1) şi ARIMA (0,1,1) pentru setul de date de mai sus, să se
calculeze MAPE pentru 4, respectiv 2 ore şi să se compare cu rezultatele obţinute cu ARIMA
(1,0,0) şi ARIMA (1,1,1).
Problema 2. Creaţi un grafic cu bare verticale care să reprezinte profitul total pentru fiecare categorie
de produs.
1. Selectaţi tabela creată la Problema 1, pentru ca aceasta să devină sursa de date activă în proiect.
2. Selectaţi Graph Bar Chart.
3. În tab-ul Bar Chart selectaţi tipul Vertical Colored Bar.
4. În tab-ul Data asignaţi variabile la rolurile prelucrării, astfel: CategoryName va reprezenta o coloană
a graficului (Column to chart), iar valorile sale vor defini coloanele graficului. Profit va fi asignată
rolului Sum of, iar valorile sale vor determina lungimea coloanelor graficului. Pentru a afişa valoarea
variabilei Profit fără zecimale, faceţi click dreapta pe aceasta, selectaţi Properties, apăsaţi Change şi
modificaţi formatul de afişare DOLLARw.d, astfel încât să aibă lăţimea 8 şi 0 zecimale.
5. În tab-ul Titles debifaţi opţiunea Use default text şi redenumiţi graficul Profit by Category.
6. În tab-ul Appearance, selectaţi Advanced şi bifaţi opţiunea Specify one statistical value to show for
bars, iar din lista de valori care se activează alegeţi Sum.
7. Apăsaţi Run.
Rapoarte compuse
Problema 3: Realizaţi un raport care să cuprinda datele obţinute la Problema 1, împreună cu raportul de
la Problema 2. Intitulaţi acest nou document Raport final. Acesta să aibă titlul Profit pe categorii, să
conţina datele în partea stângă, graficul în dreapta, iar în zona de subsol mesajul „Date confidenţiale”