Documente Academic
Documente Profesional
Documente Cultură
Coordonator:
Student:
Mustereț Ionuț-Marius
1
Cuprins
Bibliografie ................................................................................................................................................... 3
1. Prezentarea temei de cercetare .............................................................................................................. 4
1.1. Fenomenul economic/social ............................................................................................................... 4
1.2.Factorii de influență conform literaturii de specialitate ...................................................................... 4
2. Prezentarea variabilelor, perioada și spațiul.............................................................................................. 5
3. Tipul aplicației .......................................................................................................................................... 6
4. Analiza exploratorie a datelor ................................................................................................................... 7
4.1. Analiza exploratorie pentru variabila dependentă price.................................................................... 7
4.2. Analiza exploratorie pentru variabila independentă bedrooms ......................................................... 8
4.3. Analiza exploratorie pentru variabila independentă bathrooms ........................................................ 9
4.4. Analiza exploratorie pentru variabila independentă sqft_living ..................................................... 10
4.5. Analiza exploratorie pentru variabila independentă sqft_above ..................................................... 10
4.6. Analiza exploratorie pentru variabila independentă sqft_basement ............................................... 11
4.7. Box-plot pentru variabila dependentă price (pe categorii – sqft lot)................................................ 11
5. Alegerea tipurilor de rețele neurale și prezentarea structurii/descrierii acestora (SPSS) ........................ 12
6. Analiza performanței rețelelor ................................................................................................................ 14
7. Alegerea tipurilor de rețele neurale și prezentarea structurii/descrierii acestora .................................... 19
8. Predicție sau aplicarea rețelei neurale ..................................................................................................... 22
9.Concluzii .................................................................................................................................................. 23
2
Bibliografie
1) https://www.kaggle.com/datasets
2) “Piața imobiliară în uniunea europeană” - lect univ dr. Cristina Bârnă
3) https://www.nber.org/papers/w5961
4) https://www.nber.org/papers/w20152
5) https://medium.com/swlh/predicting-the-housing-market-is-easier-than-you-think-
45239a366dc1
3
1. Prezentarea temei de cercetare
1.1. Fenomenul economic/social
Piaţa imobiliară reprezintă totalitatea tranzacţiilor care implică drepturi de proprietate sau
de folosinţă asupra terenurilor şi clădirilor. Ca pe orice piaţă, preţul de tranzacţie este stabilit, în
primul rând, de interacţiunea dintre cerere şi ofertă. Faptul că fiecare imobil este unic determină
complexitatea foarte mare a acestei pieţe şi împărţirea acesteia în funcţie de zone şi de scopul în
care va fi utilizat bunul respectiv.
Termenul de imobiliar este un termen legal care se referă la teren și la orice este fixat
permanent pe un teren, cum ar fi de exemplu clădirile. Adeseori acest termen este considerat
sinonim cu termenul de proprietate imobiliară. Totuși, din motive tehnice, în prezent se face
distincția între imobiliar, case se referă la pământ și la ceea ce este fixat pe el, și proprietatea
imobiliară, care se referă la drepturile de proprietate asupra imobilului. Acești termeni au fost
utilizați pentru prima dată în domeniul dreptului comun, în timp ce dreptul civil se referă la
proprietatea inamovibilă.
Pe măsura dezvoltării proprietății imobiliare private, domeniul imobiliar a devenit extrem
de atractiv pentru afaceri. Cumpărarea unui imobil necesită o investiție semnificativă, fiecare
porțiune de teren are caracteristici unice, iar ca urmare, domeniul imobiliar a devenit în prezent o
adevărată industrie, aflată într-o continuă evoluție.
Într-unul din articolele găsite referitoare la piața imobiliară, se regăsește și “Leverage and
House-Price Dynamics in U.S. Cities” - Owen Lamont, Jeremy C. Stein. Acesta cuprinde și un
studiu, cu scopul de a vedea cum dinamica prețurilor caselor variază între orașe. Pentru acest
studiu s-au folosit 3 variabile:DNOMPRICE –Nominal Price Chance, DCPI-Inflation, DP-Real
Price Change. În urma studiului s-a concluzionat că schimbarea prețurilor caselor în urma
șocurilor financiare diferă în funcție de efectul de levier, scăzut sau ridicat, al orașelor. Unde
efectul de levier este mai mare, atunci și prețurile reacționează în consecință și sunt mai rapid
influențate de șocurile financiare. Sursa - https://www.nber.org/papers/w5961
4
Un alt articol, intitulat: “House Price Gains and U.S. Household Spending from 2002 to
2006” - Atif Mian, Amir Sufi, se focusează pe examinarea efectului creșterii prețurilor
locuințelor din SUA asupra împrumuturilor și cheltuielilor.
Sursa - https://www.nber.org/papers/w20152
Un ultim articol, intitulat: “Predicting The Housing Market Is Easier Than You Think”, își
propune să prezică prețurile caselor în funcție de anumiți indicatori, printre care stock market-ul,
evaluarea lichidității pieței, analizarea materiilor prime folosite pentru locuințe, etc. Sursa -
https://medium.com/swlh/predicting-the-housing-market-is-easier-than-you-think-45239a366dc1
5
Variabila dependentă price – variabilă numerică, reprezintă prețul caselor din SUA.
Variabila independentă bedrooms – variabilă numerică, reprezintă numărul de dormitoare
Variabila independentă bathrooms – variabilă numerică, reprezintă numărul de băi
Variabila independentă sqft_living – variabilă numerică, reprezintă spațiul de locuit, în metri
pătrați.
Variabila independentă sqft_above – variabilă numerică, reprezintă spațiul de la etaj, în metri
pătrați.
Variabila independentă sqft_basement – variabilă numerică, reprezintă spațiul de la subsol, în
metri pătrați.
Variabila independentă sqft_lot – variabilă categorială, reprezintă spațiul total al proprietății, în
funcție de 3 categorii – “Small”, “Medium”și “Large”.
Spațiul: SUA
3. Tipul aplicației
6
4. Analiza exploratorie a datelor
4.1. Analiza exploratorie pentru variabila dependentă price
Valoarea cea mai mică pentru prețul caselor este 301500 și cea mai mare este 599999.
Mediana = 437000. 50% din prețurile caselor sunt mai mici decât $437000 și 50% sunt mai mari.
Histograma pentru variabila dependentă price este ușor asimetrică la dreapta și este reprezentată
de o distribuție mezocurtică.
7
4.2. Analiza exploratorie pentru variabila independentă bedrooms
Valoarea cea mai mică pentru numărul dormitoarelor este 1 și cea mai mare este 9. Mediana = 3.
50% din numărul camerelor este mai mic decât 3 și 50% este mai mare.
Histograma pentru variabila independentă bedrooms este ușor asimetrică la dreapta și este
reprezentată de o distribuție platicurtică.
8
4.3. Analiza exploratorie pentru variabila independentă bathrooms
Valoarea cea mai mică pentru numărul băilor este 1 și cea mai mare este 6. Mediana = 2. 50%
din numărul băilor este mai mic decât 2 și 50% este mai mare.
Histograma pentru variabila independentă bathrooms este ușor asimetrică la dreapta și este
reprezentată de o distribuție leptocurtică.
9
4.4. Analiza exploratorie pentru variabila independentă sqft_living
Histograma pentru variabila independentă sqft_living este ușor asimetrică la dreapta și este
reprezentată de o distribuție leptocurtică.
10
4.6. Analiza exploratorie pentru variabila independentă sqft_basement
4.7. Box-plot pentru variabila dependentă price (pe categorii – sqft lot)
11
5. Alegerea tipurilor de rețele neurale și prezentarea structurii/descrierii
acestora (SPSS)
Partitions – alegem cât la % din inregistrări dorim să folosim pentru training, test și holdout.
12
Architecture – Alegem custom architecture.
13
6. Analiza performanței rețelelor
N Percent
14
După cum se poate observa din output-ul Case Processing Summary, sunt:
Network Information
Factors 1 sqft_lot
1 sqft_living
2 sqft_above
Covariates
Input Layer 3 bathrooms
4 sqft_basement
Number of Unitsa 7
Number of Units 1
15
Rețeaua neurală – Grafic
16
Model Summary
1 consecutive
Training step(s) with no
Stopping Rule Used
decrease in
errora
Datorită funcției de activare Identity, eroarea este măsurată pe baza probabilităților și indicatorul
este Sum of Squares. Numărul de predicții incorecte este 164.273. Valoarea erorii în cazul
setului de training este de 0.913, în cazul setului de testing este de 0.932 iar pentru holdout
0.934.
Parameter Estimates
Predictor Predicted
H(1:1) .483
H(1:3) -.057
H(1:4) -.712
Estimarea parametrilor
17
Distribuția variabilei previzionate
Distribuția erorilor
18
După cum se poate observa din graficul de mai sus, variabila care influențează cel mai mult
prețul caselor (price) este sqft_above (variabilă numerică), urmată de sqft_living (variabilă
numerică) și sqft_lot (variabilă categorială). Variabila cu cea mai mică importanță este
sqft_basement.
19
20
Eroarea rețelei neurale este 33.713319. Rezultă că, 34% din cazuri nu au fost clasificate corect.
21
8. Predicție sau aplicarea rețelei neurale
În Rstudio am calculat predicția, cu ajutorul unui model de regresie liniar multiplă. Rezultând
următoarele rezultate:
22
9.Concluzii
Articolele de specialitate pe tema – piața imobiliară din SUA, conțin indicatori, variabile care nu
coincid cu variabilele alese pentru acest studiu.
Analiza în SPSS:
Avem 5 variabile independente incluse în analiză, dintre care una este factorială (sqft_lot)
și restul numerice (sqft_living, sqft_above, bathrooms, sqft_basement )
Metoda de rescalare a variabilelor numerice independente este standardizarea.
Rețeaua prezintă un strat ascuns cu 4 neuroni. Funcția de activare este Hyperbolic
tangent.
Variabila dependentă este price – prețul caselor pe piața imobiliară din SUA. Funcția de
activare este Identity și metoda de rescalare – Standardized
Numărul de predicții incorecte este 164.273. Valoarea erorii în cazul setului de training
este de 0.913, în cazul setului de testing este de 0.932 iar pentru holdout 0.934.
Variabila care influențează cel mai mult prețul caselor (price) este sqft_above (variabilă
numerică), urmată de sqft_living (variabilă numerică) și sqft_lot (variabilă categorială).
Variabila cu cea mai mică importanță este sqft_basement.
Analiza in R:
Eroarea rețelei neurale este 33.713319. 34% din cazuri nu au fost clasificate corect.
23