Sunteți pe pagina 1din 23

UNIVERSITATEA „ALEXANDRU IOAN CUZA“ DIN IAȘI

FACULTATEA DE ECONOMIE ȘI ADMINISTRAREA AFACERILOR


DISCIPLINA:
Rețele neurale

Modelarea prețurilor imobiliarelor din SUA, cu ajutorul


metodelor de Data Mining

Coordonator:

Conf.univ.dr. Ciprian Chirilă

Student:

Mustereț Ionuț-Marius

1
Cuprins
Bibliografie ................................................................................................................................................... 3
1. Prezentarea temei de cercetare .............................................................................................................. 4
1.1. Fenomenul economic/social ............................................................................................................... 4
1.2.Factorii de influență conform literaturii de specialitate ...................................................................... 4
2. Prezentarea variabilelor, perioada și spațiul.............................................................................................. 5
3. Tipul aplicației .......................................................................................................................................... 6
4. Analiza exploratorie a datelor ................................................................................................................... 7
4.1. Analiza exploratorie pentru variabila dependentă price.................................................................... 7
4.2. Analiza exploratorie pentru variabila independentă bedrooms ......................................................... 8
4.3. Analiza exploratorie pentru variabila independentă bathrooms ........................................................ 9
4.4. Analiza exploratorie pentru variabila independentă sqft_living ..................................................... 10
4.5. Analiza exploratorie pentru variabila independentă sqft_above ..................................................... 10
4.6. Analiza exploratorie pentru variabila independentă sqft_basement ............................................... 11
4.7. Box-plot pentru variabila dependentă price (pe categorii – sqft lot)................................................ 11
5. Alegerea tipurilor de rețele neurale și prezentarea structurii/descrierii acestora (SPSS) ........................ 12
6. Analiza performanței rețelelor ................................................................................................................ 14
7. Alegerea tipurilor de rețele neurale și prezentarea structurii/descrierii acestora .................................... 19
8. Predicție sau aplicarea rețelei neurale ..................................................................................................... 22
9.Concluzii .................................................................................................................................................. 23

2
Bibliografie

1) https://www.kaggle.com/datasets
2) “Piața imobiliară în uniunea europeană” - lect univ dr. Cristina Bârnă
3) https://www.nber.org/papers/w5961
4) https://www.nber.org/papers/w20152
5) https://medium.com/swlh/predicting-the-housing-market-is-easier-than-you-think-
45239a366dc1

3
1. Prezentarea temei de cercetare
1.1. Fenomenul economic/social

Piaţa imobiliară reprezintă totalitatea tranzacţiilor care implică drepturi de proprietate sau
de folosinţă asupra terenurilor şi clădirilor. Ca pe orice piaţă, preţul de tranzacţie este stabilit, în
primul rând, de interacţiunea dintre cerere şi ofertă. Faptul că fiecare imobil este unic determină
complexitatea foarte mare a acestei pieţe şi împărţirea acesteia în funcţie de zone şi de scopul în
care va fi utilizat bunul respectiv.
Termenul de imobiliar este un termen legal care se referă la teren și la orice este fixat
permanent pe un teren, cum ar fi de exemplu clădirile. Adeseori acest termen este considerat
sinonim cu termenul de proprietate imobiliară. Totuși, din motive tehnice, în prezent se face
distincția între imobiliar, case se referă la pământ și la ceea ce este fixat pe el, și proprietatea
imobiliară, care se referă la drepturile de proprietate asupra imobilului. Acești termeni au fost
utilizați pentru prima dată în domeniul dreptului comun, în timp ce dreptul civil se referă la
proprietatea inamovibilă.
Pe măsura dezvoltării proprietății imobiliare private, domeniul imobiliar a devenit extrem
de atractiv pentru afaceri. Cumpărarea unui imobil necesită o investiție semnificativă, fiecare
porțiune de teren are caracteristici unice, iar ca urmare, domeniul imobiliar a devenit în prezent o
adevărată industrie, aflată într-o continuă evoluție.

1.2.Factorii de influență conform literaturii de specialitate

Într-unul din articolele găsite referitoare la piața imobiliară, se regăsește și “Leverage and
House-Price Dynamics in U.S. Cities” - Owen Lamont, Jeremy C. Stein. Acesta cuprinde și un
studiu, cu scopul de a vedea cum dinamica prețurilor caselor variază între orașe. Pentru acest
studiu s-au folosit 3 variabile:DNOMPRICE –Nominal Price Chance, DCPI-Inflation, DP-Real
Price Change. În urma studiului s-a concluzionat că schimbarea prețurilor caselor în urma
șocurilor financiare diferă în funcție de efectul de levier, scăzut sau ridicat, al orașelor. Unde
efectul de levier este mai mare, atunci și prețurile reacționează în consecință și sunt mai rapid
influențate de șocurile financiare. Sursa - https://www.nber.org/papers/w5961

4
Un alt articol, intitulat: “House Price Gains and U.S. Household Spending from 2002 to
2006” - Atif Mian, Amir Sufi, se focusează pe examinarea efectului creșterii prețurilor
locuințelor din SUA asupra împrumuturilor și cheltuielilor.
Sursa - https://www.nber.org/papers/w20152
Un ultim articol, intitulat: “Predicting The Housing Market Is Easier Than You Think”, își
propune să prezică prețurile caselor în funcție de anumiți indicatori, printre care stock market-ul,
evaluarea lichidității pieței, analizarea materiilor prime folosite pentru locuințe, etc. Sursa -
https://medium.com/swlh/predicting-the-housing-market-is-easier-than-you-think-45239a366dc1

2. Prezentarea variabilelor, perioada și spațiul.

Nume bază – house price prediction


Sursa - https://www.kaggle.com/datasets
Baza inițială house price prediction avea 4600 de înregistrări și 18 variabile.

După curățarea bazei de date, au mai rămas 2103 de înregistrări și 7 variabile.

5
Variabila dependentă price – variabilă numerică, reprezintă prețul caselor din SUA.
Variabila independentă bedrooms – variabilă numerică, reprezintă numărul de dormitoare
Variabila independentă bathrooms – variabilă numerică, reprezintă numărul de băi
Variabila independentă sqft_living – variabilă numerică, reprezintă spațiul de locuit, în metri
pătrați.
Variabila independentă sqft_above – variabilă numerică, reprezintă spațiul de la etaj, în metri
pătrați.
Variabila independentă sqft_basement – variabilă numerică, reprezintă spațiul de la subsol, în
metri pătrați.
Variabila independentă sqft_lot – variabilă categorială, reprezintă spațiul total al proprietății, în
funcție de 3 categorii – “Small”, “Medium”și “Large”.

Perioada: Anul 2014

Spațiul: SUA

3. Tipul aplicației

Aproximare funcții – regresie (pentru variabilele numerice) și grupare (pentru variabilele


categoriale). Deoarece baza de date folosită nu este pe serii de timp, nu putem preciza că vorbim
de predicție.

6
4. Analiza exploratorie a datelor
4.1. Analiza exploratorie pentru variabila dependentă price

Valoarea cea mai mică pentru prețul caselor este 301500 și cea mai mare este 599999.

Mediana = 437000. 50% din prețurile caselor sunt mai mici decât $437000 și 50% sunt mai mari.

Histograma pentru variabila dependentă price este ușor asimetrică la dreapta și este reprezentată
de o distribuție mezocurtică.

7
4.2. Analiza exploratorie pentru variabila independentă bedrooms

Valoarea cea mai mică pentru numărul dormitoarelor este 1 și cea mai mare este 9. Mediana = 3.
50% din numărul camerelor este mai mic decât 3 și 50% este mai mare.

Histograma pentru variabila independentă bedrooms este ușor asimetrică la dreapta și este
reprezentată de o distribuție platicurtică.

8
4.3. Analiza exploratorie pentru variabila independentă bathrooms

Valoarea cea mai mică pentru numărul băilor este 1 și cea mai mare este 6. Mediana = 2. 50%
din numărul băilor este mai mic decât 2 și 50% este mai mare.

Histograma pentru variabila independentă bathrooms este ușor asimetrică la dreapta și este
reprezentată de o distribuție leptocurtică.

9
4.4. Analiza exploratorie pentru variabila independentă sqft_living

Histograma pentru variabila independentă sqft_living este ușor asimetrică la dreapta și este
reprezentată de o distribuție leptocurtică.

4.5. Analiza exploratorie pentru variabila independentă sqft_above

Histograma pentru variabila independentă sqft_above este asimetrică la dreapta și este


reprezentată de o distribuție mezocurtică.

10
4.6. Analiza exploratorie pentru variabila independentă sqft_basement

Histograma pentru variabila independentă sqft_basement este asimetrică la dreapta și este


reprezentată de o distribuție platicurtică.

4.7. Box-plot pentru variabila dependentă price (pe categorii – sqft lot)

11
5. Alegerea tipurilor de rețele neurale și prezentarea structurii/descrierii
acestora (SPSS)

Analyze – Neural Networks – Multilayer Perceptron

Variables – Factors: pentru variabilele categoriale și Covariates pentru variabilele numerice.


Alegem variabilele pe care dorim să le folosim pentru rețeaua neurala.

Partitions – alegem cât la % din inregistrări dorim să folosim pentru training, test și holdout.

12
Architecture – Alegem custom architecture.

Alegem tipul de training batch, pentru că avem un număr mare de înregistrări.

13
6. Analiza performanței rețelelor

Case Processing Summary

N Percent

Training 894 59.6%

Sample Testing 319 21.3%

Holdout 287 19.1%


Valid 1500 100.0%
Excluded 0
Total 1500

14
După cum se poate observa din output-ul Case Processing Summary, sunt:

 894 de înregistrări pentru Training, 59,6% din eșantion;


 319 de înregistrări pentru Test, 21,3% din eșantion;
 287 de înregistrări pentru Holdout, 59,6% din eșantion;

Din eșantionul inițial nu a fost exclus nici un caz.

Network Information

Factors 1 sqft_lot

1 sqft_living

2 sqft_above
Covariates
Input Layer 3 bathrooms

4 sqft_basement

Number of Unitsa 7

Rescaling Method for Covariates Standardized


Number of Hidden Layers 1
Number of Units in Hidden Layer 1a 4
Hidden Layer(s)
Hyperbolic
Activation Function
tangent
Dependent Variables 1 price

Number of Units 1

Output Layer Rescaling Method for Scale Dependents Standardized

Activation Function Identity

Error Function Sum of Squares

a. Excluding the bias unit

Din output-ul Network Information, obținem următoarele informații:


 Avem 5 variabile independente incluse în analiză, dintre care una este factorială (sqft_lot)
și restul numerice (sqft_living, sqft_above, bathrooms, sqft_basement )
 Metoda de rescalare a variabilelor numerice independente este standardizarea.
 Rețeaua prezintă un strat ascuns cu 4 neuroni. Funcția de activare este Hyperbolic
tangent.
 Variabila dependentă este price – prețul caselor pe piața imobiliară din SUA. Funcția de
activare este Identity și metoda de rescalare – Standardized

15
Rețeaua neurală – Grafic

16
Model Summary

Sum of Squares Error 407.657

Relative Error .913

1 consecutive
Training step(s) with no
Stopping Rule Used
decrease in
errora

Training Time 0:00:00.07


Sum of Squares Error 164.273
Testing
Relative Error .932
Holdout Relative Error .934

Dependent Variable: price


a. Error computations are based on the testing sample.

Datorită funcției de activare Identity, eroarea este măsurată pe baza probabilităților și indicatorul
este Sum of Squares. Numărul de predicții incorecte este 164.273. Valoarea erorii în cazul
setului de training este de 0.913, în cazul setului de testing este de 0.932 iar pentru holdout
0.934.
Parameter Estimates

Predictor Predicted

Hidden Layer 1 Output Layer

H(1:1) H(1:2) H(1:3) H(1:4) price

(Bias) -.910 -.308 .632 -.679

[sqft_lot=1] -.561 -.404 .500 -1.078

[sqft_lot=2] .366 .152 -.101 .718

[sqft_lot=3] .496 .241 .006 .092


Input Layer
sqft_living -.069 .141 .161 -.565

sqft_above .318 -.554 -.287 -.515

bathrooms .419 .098 -.353 .082

sqft_basement .026 .468 -.023 -.236


(Bias) -.092

H(1:1) .483

Hidden Layer 1 H(1:2) .137

H(1:3) -.057
H(1:4) -.712

Estimarea parametrilor

17
Distribuția variabilei previzionate

Distribuția erorilor

Distribuție depărtată de linia de regresie, entropie ridicată.

18
După cum se poate observa din graficul de mai sus, variabila care influențează cel mai mult
prețul caselor (price) este sqft_above (variabilă numerică), urmată de sqft_living (variabilă
numerică) și sqft_lot (variabilă categorială). Variabila cu cea mai mică importanță este
sqft_basement.

7. Alegerea tipurilor de rețele neurale și prezentarea structurii/descrierii


acestora

Alegem un număr de 1500 de înregistrări.

19
20
Eroarea rețelei neurale este 33.713319. Rezultă că, 34% din cazuri nu au fost clasificate corect.

21
8. Predicție sau aplicarea rețelei neurale

În Rstudio am calculat predicția, cu ajutorul unui model de regresie liniar multiplă. Rezultând
următoarele rezultate:

22
9.Concluzii

Articolele de specialitate pe tema – piața imobiliară din SUA, conțin indicatori, variabile care nu
coincid cu variabilele alese pentru acest studiu.

Analiza în SPSS:

 Avem 5 variabile independente incluse în analiză, dintre care una este factorială (sqft_lot)
și restul numerice (sqft_living, sqft_above, bathrooms, sqft_basement )
 Metoda de rescalare a variabilelor numerice independente este standardizarea.
 Rețeaua prezintă un strat ascuns cu 4 neuroni. Funcția de activare este Hyperbolic
tangent.
 Variabila dependentă este price – prețul caselor pe piața imobiliară din SUA. Funcția de
activare este Identity și metoda de rescalare – Standardized
 Numărul de predicții incorecte este 164.273. Valoarea erorii în cazul setului de training
este de 0.913, în cazul setului de testing este de 0.932 iar pentru holdout 0.934.
 Variabila care influențează cel mai mult prețul caselor (price) este sqft_above (variabilă
numerică), urmată de sqft_living (variabilă numerică) și sqft_lot (variabilă categorială).
Variabila cu cea mai mică importanță este sqft_basement.

Analiza in R:

 Eroarea rețelei neurale este 33.713319. 34% din cazuri nu au fost clasificate corect.

23

S-ar putea să vă placă și