Regresie Liniara

Predicția prețurilor acțiunilor folosind PCA
Prezentare realizată de Toia Emilia Antonia

Grupa 324AC
Universitatea Politehnică București
Scopul Modelului
Scopul acestui model este de a prezice prețurile acțiunilor pe baza unui set de
caracteristici utilizând o abordare care include reducerea dimensionalității prin PCA
și apoi aplicarea regresiei liniare pentru antrenarea unui model care ne va ajuta la
prezicerea prețurilor.
Evoluția datelor folosite
Procesul de Construire a Modelului
1. Procesarea datelor
2. Implementarea algoritmului SVD
3. Aplicarea algoritmul PCA
4. Standardizarea datelor
5. Construirea modelului de regresie liniară
6. Evaluarea modelului
7. Vizualizarea datelor
Standardizarea Datelor
Standardizarea datelor este foarte importantă pentru a asigura că toate

caracteristicile au aceeași scară. Aceasta este o practică bună atunci când lucrăm cu
algoritmi sensibili la scala datelor, cum ar fi PCA sau algoritmi bazați pe distanțe.
Standardizarea datelor poate îmbunătăți convergența algoritmilor, în special a
celor care implică optimizare iterativă sau gradient descent.
Formularea Matematică
Procesul de construire a modelului de predicție a prețurilor acțiunilor a necesitat

diferite formulări matematice.
1. Calculul matricei de covarianță: Cov(X) = 1/n࠰(X - X-)T࠰(X - X-)

2. Apliacarea SVD: X = U࠰Σ࠰VT
3. Standardizarea datelor: Data = (X - μ)/σ
4. Modelul liniar: Y = ꞵ0+ꞵ1࠰PCA1+ꞵ2࠰PCA2+...+ꞵ࠰kPCAk+ɛ
5. Antrenarea modelului: ꞵ = (XTtrain࠰ Xtrain)-1࠰(XTtrain࠰ Ytrain)
6. Evaluarea modelului: MSE = 1/n࠰Σ(Yactual,i-Ypredicted,i)2
PCA
Analiza Componentelor Principale (PCA) este o tehnică în analiza datelor care are ca
scop reducerea dimensionalității, păstrând în același timp informațiile esențiale. În esență,
PCA transformă seturi de date complexe într-un format mai simplu, astfel încât să poată
fi mai ușor de înțeles și de analizat.
Astfel, în codul meu În loc să lucrez cu toate caracteristicile, PCA mă ajută să

identific direcțiile principale spre care se întinde variabilitatea datelor. Aceste direcții sunt
reprezentate de componente principale.
Regresia liniară
Regresia liniară este o metodă statistică utilizată pentru a modela relația liniară între o
variabilă dependentă (țintă) și una sau mai multe variabile independente (caracteristici). În
cazul regresiei linare simplă avem o singură variabilă independentă, iar în cazul regresiei
liniare multiple, avem mai multe variabile independente.
Modelul de regresie liniară simplă poate fi reprezentat de ecuația: Y=β0+β1⋅X+ε.
În cazul nostru folosim: Y = ꞵ0+ꞵ0࠰X1+ꞵ2࠰X2+...+ꞵkXk+ɛ

Antrenarea modelului liniar
Antrenarea unui model liniar înseamnă ajustarea coeficienților sau parametrilor modelului pentru a se
potrivi cât mai bine datelor de antrenare. În contextul unei regresii liniare, procesul de antrenare constă în găsirea
valorilor optime ale coeficienților care minimizează eroarea dintre valorile observate și cele prezise de model.
1. Adăugarea unei coloane pentru termenul liber

2. Împărțirea datelor în seturi de antrenare Xtrain, Xtest, Ytrain, Ytest
3. Antrenarea regresiei liniare ꞵ = (XTtrain࠰ Xtrain)-1࠰(XTtrain࠰ Ytrain)
4. Realizarea predicțiilor Ytrain_prediction = Xtrain࠰ ꞵ
Ytest_prediction = Xtest࠰ ꞵ
Evaluarea Performanței
Calcularea erorii
MSEtrain = 1/ntrain࠰Σ(Ytrain-Ytrain_predicted)2
MSEtest = 1/ntestΣ(Ytest-Ytest_predicted)2
Interpretarea erorii
● MSE mic: Modelul are o bună potrivire cu datele și face predicții precise.
● MSE mare: Modelul are o potrivire slabă cu datele și face predicții imprecise.
Calculând diferența dintre valorile reale și cele
Calcularea prezise, obții reziduurile, care reprezintă erorile

modelului pe setul de testare.
reziduurilor rezid = y_test - y_test_predicted

Dacă punctele de pe Q-Q plot se așează pe o
linie diagonală, aceasta indică o
concordanță între distribuția rezidualilor și
o distribuție normală așteptată.
Cu alte cuvinte, datele mele se potrivesc cu o

distribuție normală, ceea ce este un rezultat
bun din perspectiva asumpțiilor unui model
de regresie liniară.
Avantaje ale acestei implementări
● Eficiența modelului: PCA poate contribui la eliminarea caracteristicilor redundante sau mai puțin informative,
ceea ce poate duce la un model de regresie liniară mai eficient și mai ușor de interpretat
● Motivul pentru utilizarea regresiei liniare: presupunem că există o relație liniară între caracteristicile reduse
prin PCA și prețurile acțiunilor. În acest caz, regresia liniară poate să fie o alegere potrivită, deoarece este
simplă și ușor de interpretat.
Mulțumesc!

Regresie Liniara

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Regresie Liniara

Încărcat de

Drepturi de autor:

Formate disponibile

Predicția prețurilor acțiunilor folosind PCA

Prezentare realizată de Toia Emilia Antonia

Standardizarea datelor este foarte importantă pentru a asigura că toate

Procesul de construire a modelului de predicție a prețurilor acțiunilor a necesitat

1. Calculul matricei de covarianță: Cov(X) = 1/n࠰(X - X-)T࠰(X - X-)

Astfel, în codul meu În loc să lucrez cu toate caracteristicile, PCA mă ajută să

Modelul de regresie liniară simplă poate fi reprezentat de ecuația: Y=β0+β1⋅X+ε.

În cazul nostru folosim: Y = ꞵ0+ꞵ0࠰X1+ꞵ2࠰X2+...+ꞵkXk+ɛ

1. Adăugarea unei coloane pentru termenul liber

Calcularea prezise, obții reziduurile, care reprezintă erorile

reziduurilor rezid = y_test - y_test_predicted

Cu alte cuvinte, datele mele se potrivesc cu o

S-ar putea să vă placă și