Documente Academic
Documente Profesional
Documente Cultură
Cuprins
1. PREZENTAREA PROBLEMEI......................................................................................................3
2. EXCEL................................................................................................................................................3
2.1. Funcții logice...................................................................................................................................3
2.2. Funcții definite de utilizator...........................................................................................................4
2.3. Macrocomenzi.................................................................................................................................6
2.4. Pivot Table......................................................................................................................................7
2.5. Goalseek..........................................................................................................................................9
2.6. Scenarii............................................................................................................................................9
2.7. Subtotaluri....................................................................................................................................11
2.8. Grafice...........................................................................................................................................12
3. PYTHON..........................................................................................................................................13
3.1. Importul unei fișier csv sau json în pachetul pandas.................................................................13
3.2. Accesarea datelor cu loc și iloc.....................................................................................................13
3.3. Tratarea valorilor lipsă................................................................................................................15
3.4. Reprezentarea grafică a datelor cu pachetul matplotlib............................................................15
3.5. Ștergerea de coloane și înregistrări.............................................................................................18
3.6. Utilizarea listelor și a dicționarelor, incluzând metode specifice acestora................................20
3.7 Utilizarea pachetului statmodels (regresie multiplă)..................................................................20
3.8 Analiza rezultatelor.......................................................................................................................21
4. PROGRAMARE SAS.....................................................................................................................22
4.1 Crearea unui set de date SAS din fișiere externe..................................................................22
4.2 Crearea și folosirea de formate definite de utilizator............................................................23
4.3 Crearea seturilor de date permanente...................................................................................24
4.4 Procesarea iterativă și conditională a datelor........................................................................26
4.5 Crearea de subseturi de date...................................................................................................27
4.6 Functii SAS...............................................................................................................................30
4.7 Utilizarea de proceduri pentru raportare..............................................................................31
4.8 Folosirea de proceduri statistice.............................................................................................31
4.9 Generarea de grafice...............................................................................................................33
5. SAS ENTERPRISE GUIDE...........................................................................................................35
5.1. Importul unui fisier non-SAS......................................................................................................35
5.2. Interogări.....................................................................................................................................37
5.3. Joncțiuni........................................................................................................................................39
5.4. Folosirea parametrilor.................................................................................................................42
5.5. Utilizarea formatelor definite de utilizator.................................................................................44
5.6. Generarea de rapoarte.................................................................................................................46
5.7. Stiluri create de utilizator............................................................................................................47
5.8. Prelucrări statistice.......................................................................................................................48
5.9. Crearea unui document compus..................................................................................................54
5.10. Grafice.........................................................................................................................................55
1. PREZENTAREA PROBLEMEI
Piaţa imobiliară semnifică cumulul tranzacţiilor care susțin drepturi de proprietate sau de
uzufruct asupra terenurilor şi amplasamentelor. Această piață poate fi de mai multe tipuri,
împărțită pe segmente: comercială, spații birouri, industrială, rezidențială, terenuri etc. Fiecare
dintre aceste tipuri de piețe vine cu propriile caracteristici și contribuie la evoluția de ansamblu a
pieței imobiliare. Caracteristicile proprii fiecărui segment face din aceste piețe unele de sine
stătătoare.
Pană în anul 2003 piața imobiliară din România a avut o creștere relativ lentă de maximum
5% pe an. Datorită lipsei de spațiu locativ și apariției creditelor ipotecare / imobiliare, începând
cu anul 2003 s-a înregistrat o explozie a prețurilor, înregistrându-se creșteri de peste 50% anual.
Diferența majoră dintre cererea și oferta de pe piață imobiliară, precum și deschiderea tot
mai mare a băncilor către creditare au făcut că România să fie o destinație preferată pentru
investitori. În momentul de față, piață imobiliară din România a atins limite superioare prin
activitatea desfășurată de un număr mare de agenți economici. Pentru a înțelege mai bine
fenomenul am analizat situația vânzărilor unei agenții imobiliare din București(sectoarele în care
au fost vândute cele mai multe apartamente, prețul aparatmentelor în funcție de numărul de
camere și de suprafață).
Datele prezentate în Excel reprezintă datele înregistrate de această agenție. Pentru a analiza
compania au fost alese 3530 de înregistrări. Fiecare înregistrare conține date legate de numărul
de camere, suprafață, etaj, numărul total de etaje, sectorul în care se află , scorul și prețul fiecărui
imobil. Tot în acest Excel găsim date și despre agenții imobiliari care au intermediat aceste
tranzacții.
2. EXCEL
2.1. Funcții logice
a) definirea problemei
Să se mărească cu 10% prețurile imobilelor care au numărul de camere egal cu 4 și
prețul mai mic decât 100.000€.
b) metode de calcul, algoritmi, formule de calcul utilizate
Se folosește funcția IF după cum urmează:
IF( AND(A2=4,G2<100000),G2*1.1,G2)
c) prezentarea rezultatelor
d) interpretarea rezultatelor
Așa cum se observă în Figura 1, în urma folosirii funcției IF, prețurile aparatmentelor
cu numărul de camere egal cu 4 și prețul mai mic de 100.000€, au crescut cu 10%.
c) prezentarea rezultatelor
d) interpretarea rezultatelor
Așa cum se observă în Figura 2 a fost creată o funcție, denumită DiscountClient.
Prin aplicarea acestei funcții asupra setului de date, a fost creată o nouă coloană(Discount
Imobil) ce reprezintă discountul aplicat fiecarei locuințe în funcție de sector.
2.3. Macrocomenzi
a) definirea problemei
Realizați operația anterioară folosind o macrocomandă.
b) metode de calcul, algoritmi, formule de calcul utilizate
Primul pas pentru a construi o macrocomandă îl reprezintă înregistrarea acesteia așa
cum se observă în figura de mai jos.
d) interpretarea rezultatelor
Pentru automatizarea acestei acțiuni repetitive, am folosit macrocomanda
MacroDiscount, aceasta putând fi folosită ori de câte ori este necesar. Așa cum se poate
observa în Figura 7, rezultatele sunt identice cu cele din Figura 3.
a) definirea problemei
Realizați un raport privind valoarea vânzărilor realizată de fiecare agent imobiliar
pe fiecare sector.
Figură 10 Selectare date Pivot Table Figură 9 Adăugare câmuri Pivot Table
c) prezentarea rezultatelor
d) interpretarea rezultatelor
Pivot Table - ul ne permite să rezumăm și analizăm rezultatele obținute de agenție.
În Figura 11 se poate observa valoarea totală a apartamentelor vândute de fiecare
agent.
2.5. Goalseek
a) definirea problemei
Pentru locuința cu pretul 93.126 se cere să se determine cât ar trebui să fie TVA-ul
pentru a avea un preț de vânzare egal cu 100.000.
b) metode de calcul, algoritmi, formule de calcul utilizate
c) prezentarea rezultatelor
d) interpreatrea rezultatelor
Goalseek e o opțiune în Excel care face exact ceea ce avem noi nevoie în momentul de
față, calculează ce valoare e nevoie sa pun într-o celulă pentru ca valoarea în altă celulă să aibă o
anumită valoare. În cazul nostru ne spune că TVA – ul ar trebui să fie 13% pentru ca valoarea
locuinței să ajungă la 100.000.
2.6. Scenarii
Un scenariu este un set de valori pe care Excel le salvează și se pot substitui automat în
foaia de lucru. Putem să creăm și să salvam diferite grupuri de valori ca scenarii, apoi să
comutăm între aceste scenarii pentru a vizualiza diferitele rezultate.
a) definirea problemei
Se presupune că TVA-ul scade de la 5% la 3%. Cum se modifică prețul de vânzare al
imobilelor?
b) metode de calcul, algoritmi, formule de calcul utilizate
c) prezentarea rezultatelor
d) interpretarea rezultatelor
Așa cum se observă in Figurile 17 si 18, după aplicarea scenariului în care TVA – ul
scade de la 5% la 3%, prețul unei locuințe care înainte era de ~ 95.700 va deveni acum ~
93.900.
2.7. Subtotaluri
a) definirea problemei
Calculați valoarea totală a veniturilor obținute de fiecare agent imobiliar.
b) metode de calcul, algoritmi, formule de calcul utilizate
Subtotalurile se calculează cu o funcție de rezumare cum ar fi SUM sau AVERAGE ,
utilizând funcția Subtotal.
c) Figură 19 Subtotal
prezentarea rezultatelor
d) interpretarea rezultatelor
Rezultatul aplicării acestei funcții îl reprezintă un tabel care reflectă valoarea totală a
apartamentelor vândute de fiecare agent imobiliar.
2.8. Grafice
a) definirea problemei
Să se reprezinte printr-un grafic Pie, numărul de locuințe
vândute pe fiecare sector.
b ) metode de calcul, algoritmi, formule de calcul utilizate
Pentru realizarea graficului Pie, am calculat, folosind functia
COUNTIF, numărul de locuințe vândute pe fiecare sector.
Următorul pas a fost generarea graficului: Insert > Pie, rezultatul fiind următorul:
c) prezentarea rezultatelor
Așa cum se observă și din grafic,
procentul cel mai mare de locuințe
vândute s-a înregistrat în sectorul 1
(29%), urmat de sectorul 3(20%) și
sectorul 2(17%). Cele mai puține
apartamente vândute s-au înregistrat
în sectorul 5(5%).
3. PYTHON
3.1. Importul unei fișier csv sau json în pachetul pandas
a) definirea problemei
Să se citească datale din fișierul dataset.csv.
b) metode de calcul, algoritmi, formule de calcul utilizate
Pentru citirea datelor s-a folosit funcția read_csv, din pachetul pandas.
d) interpretarea rezultatelor
Folosind funcția head din pachetul pandas au fost afișate primele 5 înregistrări din
DataFrame.
Figură 25 Iloc
Figură 26 Loc
c) prezentarea rezultatelor
Așa cum se observă și din Figura 31, majoritatea locuințelor au 2 sau 3 camere în
minoritate fiind cele cu 5, 6 sau 7 camere.
Figură 32 Suprafata in functie de pret
c) prezentarea rezultatelor
c) prezentarea rezultatelor
c) prezentarea rezultatelor
3.8 Analiza rezultatelor
a) definirea problemei
Să se afișeze coeficienții regresiei, să se calculeze eroarea pe setul de test și să se
previzioneze valoarea unui apartament cu 2 camere, suprafața de 45 de mp la etajul 5 în
sectorul 3.
b) metode de calcul, algoritmi, formule de calcul utilizate
c) prezentarea rezultatelor
4. PROGRAMARE SAS
4.1 Crearea unui set de date SAS din fișiere externe
a) definirea problemei
Să se citească datele din fișierul dataset.csv
b) metode de calcul, algoritmi, formule de calcul utilizate
Pentru a putea importa fișierul dataset.csv am folosit procedura PROC IMPORT,
care a importat datete din fișierul extern în dataset – ul date_apartamente.
c) prezentarea rezultatelor
d) interpretarea rezultatelor
Folosind procedura PROC PRINT am afișat rezultatul importului. În urma
importului în biblioteca WORK a aparut un nou fișier DATE_APARTAMENT.
4.2 Crearea și folosirea de formate definite de utilizator
1. Problema 1
a) definirea problemei
Pentru datele de mai sus să se creeze un format definit de utilizator pentru variabila
sector astfel: 1 => Sector 1, 2 => Sector 2 etc.
b) metode de calcul, algoritmi, formule de calcul utilizate
Pentru definirea unui format creat de utilizator am folosit procedura PROC
FORMAT, procedură ce permite definirea mai multor formate de afișare.
c) prezentarea rezultatelor
2. Problema 2
a) definirea problemei
Folosind formatul definit mai sus să se determine câte apartamente au fost vândute în
fiecare sector
b) metode de calcul, algoritmi, formule de calcul utilizate
Pentru calcularea numărului de apartamente vândute în fiecare sector am folosit o
altă procedură numită PROC FREQ.
c) prezentarea rezultatelor
d) interpretarea rezultatelor
Procedura FREQ a calculat frecvențele de apariție ale valorilor formatate.
Din figura 39 se observă că cele mai multe apartamente vândute au fost în sectorul 1,
urmat de sectorul 3 și sectorul 2.
c) prezentarea rezultatelor
In urma rulării scriptului anterior, a fost creat pe server fișierul persistent
date.sas7bdat, dar și biblioteca temporară perman.
Problema 2
a) definirea problemei
Să se realizeze un script ce afișează un raport complet al setului de date.
b) metode de calcul, algoritmi, formule de calcul utilizate
c) prezentarea rezultatelor
Figură 41 Raport
d) interpretarea rezultatelor
Rezultatul rulării acestui script este un raport ce conține numărul de variabile și de
observații, numele, tipul și dimensiunile variabilelor și alte informații referitoare la setul
de date din fișier. Raportul este prezentat în figura 41.
c) prezentarea rezultatelor
Figură 42 Rezultat procesare iterativa
d) interpretarea rezultatelor
Rezultatul rulării scriptului de mai sus este un raport ce conține, pe lângă datele
introduse, și tipul locuinței așa cum se observă în Figura 42.
Figură 43 Subseturi
d) interpretarea rezultatelor
În urma rulării scriptului de mai sus, a fost creat un subset ce conține toate
informațiile legate de apartamente, doar pentru acele apartamente care sunt în sectorul 1,
2 sau 3, și ale căror tranzacții au fost intermediate de agentul imobiliar Popescu.
Rezultatul rulării acestui program este prezentat în figura 43.
2. Problema 2
a) definirea problemei
Să se afișeze numărul de locuințe din fiecare tip, pentru setul de date creat la
punctul anterior
b) metode de calcul, algoritmi, formule de calcul utilizate
c) prezentarea rezultatelor
c) prezentarea rezultatelor
Figură 45 Select
d) interpretarea rezultatelor
Folosirea instrucțiunii SELECT este o alternativă la utilizarea unei serii de
instrucțiuni IF ELSE. Așa cum se observă și în figura 45, rezultatul este același cu cel
din figura 42 , unde am folosit o serie de instrucțiuni IF ELSE.
4.6 Funcții SAS
1. Problema 1
a) definirea problemei
Să se adauge un adaos comercial pentru fiecare apartament în funcție de suprafață
astfel: dacă suprafața < 50, adaos = 0.01; dacă suprafața este între 50 și 100, adaos =
0.03 și dacă suprafața > 50, adaos = 0.05
b) metode de calcul, algoritmi, formule de calcul utilizate
c) prezentarea rezultatelor
c) prezentarea rezultatelor
c) prezentarea rezultatelor
Figură 48 Statistici
d) interpretarea rezultatelor
Procedura GCHART permite crearea unor grafice în care înălțimea unei bare
reprezintă anumiți indicatori statistici precum media sau suma, pentru fiecare variabilă de
clasificare.
În cazul nostru indicatorul statistic folosit a fost media, iar variabiala de clasificare
a fost sectorul. Așa cum se poate observa și în figura 50, sectorul cu cel mai mare preț mediu al
apartamentelor este sectorul 1, iar sectoarele cu cele mai mici prețuri medii sunt sectoarele 4 și 6.
5. SAS ENTERPRISE GUIDE
5.1. Importul unui fisier non-SAS
Pentru a rezolva cerințele din cadrul acestui proiect ce se axează pe utilizarea pachetului
software numit SAS Enterprise Guide, s-a folosit fișierul Excel pe baza căruia s-a demonstrat
utilitatea mediului SAS și a limbajului Python, precum și multitudinea de instrumente utile ce se
pot utiliza direct prin intermediul pachetului Excel. Acest fișier conține informații referitoare la
activitatea unei agentii de imobiliare din București.
a) definirea problemei
Să se importe datele din fișierul dataset.csv.
b) metode de calcul, algoritmi, formule de calcul utilizate
Pentru a importa o foaie de calcul se urmează următorii pași:
1. File > Import data > Se selectează fișierul corespunzator
2. Următorul pas conține o serie de 4 instrucțiuni și anume:
Specify Data – unde trebuiesc specificate datele de intrare
Select Data Source – sunt specificate datele ce se vor selecta din
fișier( figura 51 )
c) prezentarea rezultatelor
5.2. Interogări
a) definirea problemei
Să se creeze o interogare aplicată setului de date dataset numită DetaliiVanzari. În
interogare se vor regasi toate locuințele vândute de agenții imobiliari Ionescu și Popescu.
Atributele ce se vor afișa sunt următoarele : NrCamere, Suprafață, Preț, AgentImobiliar.
b) metode de calcul, algoritmi, formule de calcul utilizate
În setul de date Articole se apasă pe butonul . Acesta deschide
fereastra necesară efectuării unei interogări. În dreptul Select Data vom
adăuga coloanele menționate mai sus, la fel ca în figura de mai jos
Figură 55 Interogare
Pasul următor consă în aplicarea unui filtru(Filter Data), la fel ca în imginile de mai jos.
c) prezentarea rezultatelor
d) interpretarea rezultatelor
Așa cum se observă în figura 58,
în urma pașilor parcurși anterior, am
obținut o tabelă ce conține doar
câmpurile Nr.Camere, Suprafața, Preț,
Agent Imobiliar, doar pentru agenții
Ionescu și Popescu.
5.3. Joncțiuni
a) definirea problemei
Să se creeze o joncțiune între seturile de
date DetaliiVânzări și DetaliiAngajați pentru
a determina numărul de locuințe vândute de
fiecare angajat.
b) metode de calcul, algoritmi,
formule de calcul utilizate
Deschidem setul de
date Detalii Angajați și apăsăm
butonul pentru a pregăti Figură 58 Rezultate interogare datele
pentru joncțiunea cerută. Pentru a adăuga încă o tabelă apăsăm butonul și adăugăm setul de date
DetaliiVânzări, ca în figura următoare.
Figură 60 Jonctiune
Figură 61 Run
Prin apăsarea Run, se obține următorul rezultat:
d) interpretarea rezultatelor
Rezultatul obținut este o tabelă ce conține numele fiecărui agent imobiliar și numărul
total de locuințe vândute de acesta.
5.4. Folosirea parametrilor
a) definirea problemei
Să se creeze o interogare asemănătoare celei denumită DetaliiVânzări, în care numele
agentului de vânzări să se introducă de la tastatură. Să se ilustreze interogarea folosind cuvintele
“Atasie” și “Popescu”. Se va folosi setul de date datasetModificat
b) metode de calcul, algoritmi, formule de calcul utilizate
Se urmează pașii de la punctul 5.2, selectându-se suprafața, numărul de camere, prețul
și agentul imobiliar.
c) prezentarea rezultatelor
d) interpretarea rezultatelor
În funcție de numele specificat, va apărea o tabela ce conține tranzacțiile în care
respectivul agent imobiliar a fost implicat.
d) interpretarea rezultatelor
Așa cum se observă și în figura 66, în urma aplicării formatului definit de utilizator
cifrele din coloana sector au fost înlocuite cu noul format.
5.6. Generarea de rapoarte
a) definirea problemei
Să se creeze un raport care să afișeze detaliile despre locuințe, dar și valoarea totală a
vânzărilor pe fiecare sector. Se va folosi setul de date datasetModificat.
b) metode de calcul, algoritmi, formule de calcul utilizate
Pentru a genera un raport deschidem setul de date datasetModificat și se intră în
Describe List Data. Variabilele dorite se introduc ca în imginea de mai jos:
c) prezentarea rezultatelor
d) interpretarea rezultatelor
Așa cum se observă și în figura 70, în urma rulării, este creat un raport în care sunt
prezentate media, prețul minim și maxim, abaterea standard și numărul de observații.
Problema 2
a) definirea problemei
Să se verifice daca între preț și numărul de camere există o legătură liniara.
b) metode de calcul, algoritmi, formule de calcul utilizate
Se folosește interogarea de mai sus și se apasă Analyze Regression Linear
Regression și se introduc următoarele informații:
c) prezentarea rezultatelor
d) interpretarea rezultatelor
Conform datelor prezentate în tabelul 72, R2 = 40, 42%, ceea ce înseamnă că modelul
nu este valid statistic, adică nu există o legatură puternică între numărul de camere și
prețul acestora
De asemenea, graficul din figura 73 demonstrează că modelul ales nu este unul valid,
prin urmare demonstrează lipsa legăturii liniare dintre variabilele studiate.
Problema 3
a) definirea problemei
Să se determine influența suprafeței apartamentelor asupra prețului acestora.
b) metode de calcul, algoritmi, formule de calcul utilizate
Se va crea o tabelă nouă folosind o interogare:
Figură 74 Corelograma
c) prezentarea rezultatelor
d) interpretarea rezultatelor
Din analiza corelației dintre suprfață și preț observăm că se obține un coeficient de
corelație de 0.8075, mai mare decât 0.7, ceea ce înseamnă că între cele două există o legătură
puternică. Semnul plus indică faptul că legătura este pozitivă (ambele variabile se modifică în
același sens – când una crește și cealaltă crește).
5.9. Crearea unui document compus
a) definirea problemei
Să se creeze un raport compus în care să se afișeze un titlu, raportul statistic de la
problema 1 și graficul Pie.
b) metode de calcul, algoritmi, formule de calcul utilizate
Raportul compus s-a obținut prin apăsarea File New Report și adăugarea celor 2
rapoarte menționate:
c) prezentarea rezultatelor
5.10. Grafice
a) definirea problemei
Să se realizeze un grafic de tip Pie Chart în care să se prezinte frecvența locuințelor
vândute în funcție de sector.