Sunteți pe pagina 1din 26

Analiza

volumelor
mari de
date

NOTE DE CURS
Analiza datelor

Etape pentru analiza datelor:


– Extragerea datelor din surse multiple;
– Organizarea și pre-procesarea datelor;
– Aplicarea algoritmilor de Machine Learning;
– Analiza și interpretarea rezultatelor.
Analiza datelor

Sursa: Sarah Butcher (https://news.efinancialcareers.com/dk-en/285249/machine-learning-and-big-data-j-p-morgan )


Analiza datelor

Tehnici de tip Machine Learning utilizate în analiza datelor:


– Învățare supervizată: regresie, clasificare
– Învățare ne-supervizată: clusterizare, reducerea dimensionalității;
– Învățare de tip reinforcement learning;

Sursa: Coding Deep Learning For Beginners (


https://towardsdatascience.com/coding-deep-learning-for-beginners-types-of-machine-le
arning-b9e651e1ed9d
)
Sursa: Matthew Mayo, Kdnuggets (https://www.kdnuggets.com/2017/07/machine-learning-big-data-explained.html )
Analiza datelor

Rețele neuronale artificiale utilizate în


analiza datelor:
– Elementul de bază în structura unei reţele
neuronale îl constituie neuronul artificial.
– Pentru construirea unei reţele neuronale,
neuronii artificiali se conectează în unul
sau mai multe straturi, definind astfel,
arhitectura reţelei.
Analiza datelor

– Reţele de tip perceptron sunt reţelele neuronale feed-forward cu


funcţii de activare treaptă care pot fi utilizate numai în
probleme de clasificare liniară.
– Rețele neuronale multistrat (MLP) conțin unul sau mai multe
straturi ascunse de neuroni. De obicei, rețeaua este formată
dintr-un strat de intrare conținând neuronii sursă, cel puțin un
strat ascuns conținând neuroni computaționali și un strat de
ieșire conținând neuroni computaționali. Semnalele de intrare
se propagă de la intrare spre ieșirea rețelei strat după strat.
Analiza datelor

𝑤𝑥
  𝑗𝑖
X1 h1
𝑤  h 𝑗
X2 h2

𝑌
 

Xm hp
bh

bx

Input layer X: Output layer Y:


  Hidden layer H:
   
,
 
Arhitectura
  unei rețele cu mai multe intrări (input) , un strat ascuns H cu p neuroni şi
ieşirea estimată (output) Y
Analiza datelor

– Elementele
  se numesc ponderi (weights), iar constantele poartă denumirea
de deplasări (bias). Intrarea corespunzătoare deplasării are, indiferent de
semnalul de intrare, valoarea 1;
– Funcțiile se numesc funcții de activare a neuronilor. Aplicarea funcțiilor pe
straturile rețelei conduce la obținerea valorii estimate Y astfel:
(1)
(2)
Pentru antrenarea rețelei se pot utiliza mai multe tipuri de funcții de activare
Analiza datelor

– Metodele
  de antrenare (învățare) au ca obiectiv ajustarea ponderilor prin iterații
succesive (no of iterations) astfel încât să se minimizeze eroare rețelei. Eroarea
este calculată de obicei cu formula:
(3)
unde reprezintă valoarea actuală a variabilei de ieșire (actual output)
– Pentru ajustarea ponderilor, se pot utiliza metode bazate pe gradientul
descendent, la fiecare nouă iterație (t+1) ponderile și biasul fiind ajustate pe
baza valorilor anterioare și a ratei de învățare (lr) conform formulei:
(4)
– Se pot utiliza diferite variante ale acestei metode: Momentum, Nesterov, Adam (
https://en.wikipedia.org/wiki/Gradient_descent)
Analiza datelor

– Parametrii rețelei sunt formați din numărul de straturi ascunse


(hidden layers), numărul de neuroni pe fiecare strat, funcțiile
activare ale fiecărui strat, numărul de itarații și metoda de
antrenare (învățare) a rețelei.
– O antrenare corespunzătoare a rețelei se face prin ajustarea
acestor parametri.
Analiza datelor

–Pași
  pentru antrenarea rețelelor neuronale ([1]):

– Presupunem că avem o reţea neuronală net cu un singur strat cu


m intrări și p neuroni pe stratul ascuns și Q eșantioane.
– Algoritmul de antrenare constă în actualizarea parametrilor
reţelei, adică a elementelor matricei ponderilor W şi a
vectorului deplasărilor cu scopul de a satisface cele Q egalităţi
f(xq)= q, unde reprezintă ieșirea dorită (target).
Analiza datelor

–I.  Etapa de inițializare

– Se organizează vectorii şi sub forma matricelor: și ieșirile


actuale .
– Se inițializează ponderile și deplasările cu valori numerice
aleatoare din intervalul (sau cu valori nule).
– Pentru algoritmul de antrenare se stabileşte de către utilizator
un număr maxim de iteraţii sau epoci.
– Valorile parametrilor reţelei la începerea unei noi iteraţii sunt
notate prin (pentru ponderi) şi (pentru deplasări).
Analiza datelor

–II.  Etapa de prezentare

– Pentru valorile curente ale parametrilor rețelei se calculează


ieșirile estimate ale rețelei:

– Organizate sub forma matricei


Analiza datelor

–III.
  Etapa de verificare

– Se calculează vectorii erorilor ca diferențe între vectorii țintă și


vectorii ieșire la iterația curentă:

– Algoritmul se oprește dacă este îndeplinită una din următoarele


condiții:
1) toți vectorii eroare au o valoare acceptabilă
2) a fost atins numărul maxim de iterații.
Analiza datelor

–III.
  Etapa de verificare

– Eroarea totală a rețelei se calculează după parcurgerea tuturor


iterațiilor astfel:
– La final, algoritmul va furniza valorile parametrilor reţelei
rezultate din antrenare, care vor fi notate prin Wf (pentru
ponderi) şi bf (pentru deplasări).
– Dacă nici una din condiţiile de stop nu este îndeplinită, se
continuă cu etapa următoare a iteraţiei curente.
Analiza datelor

–IV.  Etapa de actualizare a parametrilor

– Se construieşte matricea erorilor:


pe baza căreia se calculează noile valori ale parametrilor pentru
iterația următoare (t+1):
i) pentru ponderi:
ii) pentru deplasări:
Analiza datelor

–  Etapa testare și validare


V.
– Acuratețea modelului se testează și se validează pe date noi,
verificându-se abaterea dintre ieșirea rețelei și valorile actuale
ale vectorului Y.
Analiza datelor

Tipuri de rețele neuronale (


https://www.digitalvidya.com/blog/types-of-neural-networks ):
- MLP feed-forward with back propagation;
- Radial Basis Function Neural Network
- Recurrent Neural Network(RNN) – Long Short Term Memory
- Deep Neural Network (DNN)
Rețelele neuronale au aplicabilitate în diferite domenii pentru
recunoașterea formelor, predicții și automatizarea anumitor
procese.
Studiu de caz

Estimarea producției de energie electrică din surse


eoliene/fotovoltaice
– Surse de date: senzori instalați în parcurile eoliene/fotovoltaice;
date meteo;
– Algoritmi utilizați: rețele neuronale de tip MLP feed-forward;
Deep Neural Networks (DNN), metode de tip Ensemble:
Random Forests și Gradient Tree Boosting;
– Implementare în Python;
Studiu de caz
Rezultate obținute – parc fotovoltaic:
RMSE ANN: 230.06851824547266
R ANN: 0.9628781290881446
RMSE DNN: 215.3895747271413
R DNN: 0.9799338674974896
RMSE GBR: 2.1338566427332633
R GBR: 0.9999980305507391
RMSE RF: 178.32678004648503
R RF: 0.9862454161948575
RMSE REGRESIE: 370.6490623080353
R REGRESIE: 0.9405789762824392
Studiu de caz
Internet of Things & Big
Data
Internet of Things & Big
Data
Internet of Things & Big
Data

S-ar putea să vă placă și