Sunteți pe pagina 1din 14

Predicția prețurilor acțiunilor folosind PCA

Prezentare realizată de Toia Emilia Antonia


Grupa 324AC
Universitatea Politehnică București
Scopul Modelului

Scopul acestui model este de a prezice prețurile acțiunilor pe baza unui set de
caracteristici utilizând o abordare care include reducerea dimensionalității prin PCA
și apoi aplicarea regresiei liniare pentru antrenarea unui model care ne va ajuta la
prezicerea prețurilor.
Evoluția datelor folosite
Procesul de Construire a Modelului

1. Procesarea datelor
2. Implementarea algoritmului SVD
3. Aplicarea algoritmul PCA
4. Standardizarea datelor
5. Construirea modelului de regresie liniară
6. Evaluarea modelului
7. Vizualizarea datelor
Standardizarea Datelor

Standardizarea datelor este foarte importantă pentru a asigura că toate


caracteristicile au aceeași scară. Aceasta este o practică bună atunci când lucrăm cu
algoritmi sensibili la scala datelor, cum ar fi PCA sau algoritmi bazați pe distanțe.
Standardizarea datelor poate îmbunătăți convergența algoritmilor, în special a
celor care implică optimizare iterativă sau gradient descent.
Formularea Matematică

Procesul de construire a modelului de predicție a prețurilor acțiunilor a necesitat


diferite formulări matematice.

1. Calculul matricei de covarianță: Cov(X) = 1/n࠰(X - X-)T࠰(X - X-)


2. Apliacarea SVD: X = U࠰Σ࠰VT
3. Standardizarea datelor: Data = (X - μ)/σ
4. Modelul liniar: Y = ꞵ0+ꞵ1࠰PCA1+ꞵ2࠰PCA2+...+ꞵ࠰kPCAk+ɛ
5. Antrenarea modelului: ꞵ = (XTtrain࠰ Xtrain)-1࠰(XTtrain࠰ Ytrain)
6. Evaluarea modelului: MSE = 1/n࠰Σ(Yactual,i-Ypredicted,i)2
PCA

Analiza Componentelor Principale (PCA) este o tehnică în analiza datelor care are ca
scop reducerea dimensionalității, păstrând în același timp informațiile esențiale. În esență,
PCA transformă seturi de date complexe într-un format mai simplu, astfel încât să poată
fi mai ușor de înțeles și de analizat.

Astfel, în codul meu În loc să lucrez cu toate caracteristicile, PCA mă ajută să


identific direcțiile principale spre care se întinde variabilitatea datelor. Aceste direcții sunt
reprezentate de componente principale.
Regresia liniară

Regresia liniară este o metodă statistică utilizată pentru a modela relația liniară între o
variabilă dependentă (țintă) și una sau mai multe variabile independente (caracteristici). În
cazul regresiei linare simplă avem o singură variabilă independentă, iar în cazul regresiei
liniare multiple, avem mai multe variabile independente.

Modelul de regresie liniară simplă poate fi reprezentat de ecuația: Y=β0+β1⋅X+ε.

În cazul nostru folosim: Y = ꞵ0+ꞵ0࠰X1+ꞵ2࠰X2+...+ꞵkXk+ɛ


Antrenarea modelului liniar

Antrenarea unui model liniar înseamnă ajustarea coeficienților sau parametrilor modelului pentru a se
potrivi cât mai bine datelor de antrenare. În contextul unei regresii liniare, procesul de antrenare constă în găsirea
valorilor optime ale coeficienților care minimizează eroarea dintre valorile observate și cele prezise de model.

1. Adăugarea unei coloane pentru termenul liber


2. Împărțirea datelor în seturi de antrenare Xtrain, Xtest, Ytrain, Ytest
3. Antrenarea regresiei liniare ꞵ = (XTtrain࠰ Xtrain)-1࠰(XTtrain࠰ Ytrain)
4. Realizarea predicțiilor Ytrain_prediction = Xtrain࠰ ꞵ

Ytest_prediction = Xtest࠰ ꞵ
Evaluarea Performanței

Calcularea erorii

MSEtrain = 1/ntrain࠰Σ(Ytrain-Ytrain_predicted)2

MSEtest = 1/ntestΣ(Ytest-Ytest_predicted)2

Interpretarea erorii

● MSE mic: Modelul are o bună potrivire cu datele și face predicții precise.
● MSE mare: Modelul are o potrivire slabă cu datele și face predicții imprecise.
Calculând diferența dintre valorile reale și cele

Calcularea prezise, obții reziduurile, care reprezintă erorile


modelului pe setul de testare.

reziduurilor rezid = y_test - y_test_predicted


Dacă punctele de pe Q-Q plot se așează pe o
linie diagonală, aceasta indică o
concordanță între distribuția rezidualilor și
o distribuție normală așteptată.

Cu alte cuvinte, datele mele se potrivesc cu o


distribuție normală, ceea ce este un rezultat
bun din perspectiva asumpțiilor unui model
de regresie liniară.
Avantaje ale acestei implementări

● Eficiența modelului: PCA poate contribui la eliminarea caracteristicilor redundante sau mai puțin informative,
ceea ce poate duce la un model de regresie liniară mai eficient și mai ușor de interpretat

● Motivul pentru utilizarea regresiei liniare: presupunem că există o relație liniară între caracteristicile reduse
prin PCA și prețurile acțiunilor. În acest caz, regresia liniară poate să fie o alegere potrivită, deoarece este
simplă și ușor de interpretat.
Mulțumesc!

S-ar putea să vă placă și