Sunteți pe pagina 1din 3

Acest program efectuează o analiză de regresie liniară și polinomială asupra unui set de

date dintr-un fișier CSV, 'ml_fitbit.csv'.

În prima linie, sunt importate modulele pandas, numpy, pyplot din matplotlib și câteva
funcții de măsurare a erorii din sklearn.

În a doua linie, se citește fișierul CSV și se stochează în variabila "fisier" folosind pandas.

În a treia linie, se calculează dimensiunea fișierului și se stochează în variabila


"dimensiune".

În a patra și a cincea linie, variabilele "t" și "b" sunt inițializate cu valorile din coloanele
"TotalSteps" și "Calories", respectiv, convertite într-o matrice numpy și reorganizate
pentru a avea un format adecvat pentru analiza de regresie.

În a șasea linie, se initializează variabila "t1" cu o matrice de 1-uri de dimensiunea


"dimensiune x 1".

Acest program efectuează o regresie liniară și polinomială pe un set de date citit dintr-
un fișier CSV și calculează o serie de metrici de evaluare a performanței modelelor.

Partea cea mai importantă a programului este regresia polinomială, care este definită
prin funcția "reg_polinomiala". Aceasta primește un argument "grad" care specifică
gradul polinomului folosit pentru regresie și apoi calculează coeficienții polinomului de
regresie prin metoda minimelor pătratelor și afișează o serie de metrici de evaluare a
performanței, cum ar fi MSE, RMSE, MAE și R^2. De asemenea, funcția trasează un grafic
de dispersie a datelor de antrenare și o curbă de regresie polinomială de gradul
specificat.

Funcția "reg_liniara" calculează și afișează metrici similare pentru o regresie liniară


simplă, fără a utiliza o funcție polinomială.
Acest program efectuează o regresie liniară și polinomială pe datele din fișierul csv
"ml_fitbit.csv", utilizând biblioteca Pandas și Numpy pentru încărcarea și procesarea
datelor și biblioteca Matplotlib pentru vizualizarea rezultatelor. Scopul este de a
determina relația dintre totalul de pași parcurși de utilizatorii Fitbit și numărul de calorii
arse.

Partea cea mai importantă a programului este funcția "reg_polinomiala(grad)", care


efectuează o regresie polinomială de gradul dat (argumentul "grad") pe datele de
intrare și calculează metricele de performanță ale modelului de regresie (SSE - sumă
pătratică a erorilor, MSQE - eroare medie pătratică, R^2 - coeficientul de determinare,
MAE - eroare medie absolută și RMSE - eroare medie pătratică radacina). În plus, funcția
afișează și un grafic cu punctele de date de intrare și curba de regresie polinomială
corespunzătoare.

Programul începe prin încărcarea fișierului csv "ml_fitbit.csv" folosind biblioteca Pandas
și inițializarea a două variabile, t și b, cu datele din coloanele "TotalSteps" și "Calories"
din fișier, care vor fi folosite mai târziu pentru a realiza regresia. Variabila t1 este
inițializată cu o matrice de 1-uri pentru a fi folosită la regresia liniară.

Următoarea funcție, "reg_polinomiala(grad)", primește ca argument gradul polinomului


de regresie și realizează o regresie polinomială pe datele de intrare. Aceasta creează o
matrice A formată din coloanele 1, t, t^2, ..., t^grad, și utilizează metoda "linalg.solve"
din Numpy pentru a găsi coeficienții curbei de regresie. Funcția calculează, de
asemenea, metricele de performanță ale modelului, inclusiv SSE, MSQE, R^2, MAE și
RMSE, și le afișează la consolă. În final, funcția desenează un grafic cu datele de intrare și
curba de regresie polinomială obținută.

Funcția "reg_liniara()" realizează o regresie liniară simplă pe datele de intrare, folosind


aceeași metodă ca și regresia polinomială, dar cu o matrice A formată doar din
coloanele 1 și t.

În general, programul este conceput pentru a analiza datele de intrare și a evalua


performanța diferitelor modele de regresie aplicate pe aceste date. Regresia polinomială
este mai puternică decât regresia liniară simplă, deoarece poate modela mai bine relația
dintre variabile, dar poate fi și mai sensibilă la overfitting, ceea ce înseamnă că poate fi
prea bine adaptată pentru datele de intrare și poate avea o performanță slabă la date
noi.

S-ar putea să vă placă și