Analiza Volumelor Mari de Date

Analiza
volumelor
mari de
date
NOTE DE CURS
Analiza datelor
Etape pentru analiza datelor:

– Extragerea datelor din surse multiple;
– Organizarea și pre-procesarea datelor;
– Aplicarea algoritmilor de Machine Learning;
– Analiza și interpretarea rezultatelor.
Analiza datelor
Sursa: Sarah Butcher (https://news.efinancialcareers.com/dk-en/285249/machine-learning-and-big-data-j-p-morgan )

Analiza datelor
Tehnici de tip Machine Learning utilizate în analiza datelor:

– Învățare supervizată: regresie, clasificare
– Învățare ne-supervizată: clusterizare, reducerea dimensionalității;
– Învățare de tip reinforcement learning;
Sursa: Coding Deep Learning For Beginners (

https://towardsdatascience.com/coding-deep-learning-for-beginners-types-of-machine-le
arning-b9e651e1ed9d
)
Sursa: Matthew Mayo, Kdnuggets (https://www.kdnuggets.com/2017/07/machine-learning-big-data-explained.html )
Analiza datelor
Rețele neuronale artificiale utilizate în

analiza datelor:
– Elementul de bază în structura unei reţele
neuronale îl constituie neuronul artificial.
– Pentru construirea unei reţele neuronale,
neuronii artificiali se conectează în unul
sau mai multe straturi, definind astfel,
arhitectura reţelei.
Analiza datelor
– Reţele de tip perceptron sunt reţelele neuronale feed-forward cu

funcţii de activare treaptă care pot fi utilizate numai în
probleme de clasificare liniară.
– Rețele neuronale multistrat (MLP) conțin unul sau mai multe
straturi ascunse de neuroni. De obicei, rețeaua este formată
dintr-un strat de intrare conținând neuronii sursă, cel puțin un
strat ascuns conținând neuroni computaționali și un strat de
ieșire conținând neuroni computaționali. Semnalele de intrare
se propagă de la intrare spre ieșirea rețelei strat după strat.
Analiza datelor
𝑤𝑥
𝑗𝑖
X1 h1
𝑤 h 𝑗
X2 h2
𝑌

Xm hp
bh
bx
Input layer X: Output layer Y:

Hidden layer H:

,

Arhitectura
unei rețele cu mai multe intrări (input) , un strat ascuns H cu p neuroni şi
ieşirea estimată (output) Y
Analiza datelor
– Elementele
se numesc ponderi (weights), iar constantele poartă denumirea
de deplasări (bias). Intrarea corespunzătoare deplasării are, indiferent de
semnalul de intrare, valoarea 1;
– Funcțiile se numesc funcții de activare a neuronilor. Aplicarea funcțiilor pe
straturile rețelei conduce la obținerea valorii estimate Y astfel:
(1)
(2)
Pentru antrenarea rețelei se pot utiliza mai multe tipuri de funcții de activare
Analiza datelor
– Metodele
de antrenare (învățare) au ca obiectiv ajustarea ponderilor prin iterații
succesive (no of iterations) astfel încât să se minimizeze eroare rețelei. Eroarea
este calculată de obicei cu formula:
(3)
unde reprezintă valoarea actuală a variabilei de ieșire (actual output)
– Pentru ajustarea ponderilor, se pot utiliza metode bazate pe gradientul
descendent, la fiecare nouă iterație (t+1) ponderile și biasul fiind ajustate pe
baza valorilor anterioare și a ratei de învățare (lr) conform formulei:
(4)
– Se pot utiliza diferite variante ale acestei metode: Momentum, Nesterov, Adam (
https://en.wikipedia.org/wiki/Gradient_descent)
Analiza datelor
– Parametrii rețelei sunt formați din numărul de straturi ascunse

(hidden layers), numărul de neuroni pe fiecare strat, funcțiile
activare ale fiecărui strat, numărul de itarații și metoda de
antrenare (învățare) a rețelei.
– O antrenare corespunzătoare a rețelei se face prin ajustarea
acestor parametri.
Analiza datelor
–Pași
pentru antrenarea rețelelor neuronale ([1]):
– Presupunem că avem o reţea neuronală net cu un singur strat cu

m intrări și p neuroni pe stratul ascuns și Q eșantioane.
– Algoritmul de antrenare constă în actualizarea parametrilor
reţelei, adică a elementelor matricei ponderilor W şi a
vectorului deplasărilor cu scopul de a satisface cele Q egalităţi
f(xq)= q, unde reprezintă ieșirea dorită (target).
Analiza datelor
–I. Etapa de inițializare
– Se organizează vectorii şi sub forma matricelor: și ieșirile

actuale .
– Se inițializează ponderile și deplasările cu valori numerice
aleatoare din intervalul (sau cu valori nule).
– Pentru algoritmul de antrenare se stabileşte de către utilizator
un număr maxim de iteraţii sau epoci.
– Valorile parametrilor reţelei la începerea unei noi iteraţii sunt
notate prin (pentru ponderi) şi (pentru deplasări).
Analiza datelor
–II. Etapa de prezentare
– Pentru valorile curente ale parametrilor rețelei se calculează

ieșirile estimate ale rețelei:
– Organizate sub forma matricei

Analiza datelor
–III.
Etapa de verificare
– Se calculează vectorii erorilor ca diferențe între vectorii țintă și

vectorii ieșire la iterația curentă:
– Algoritmul se oprește dacă este îndeplinită una din următoarele

condiții:
1) toți vectorii eroare au o valoare acceptabilă
2) a fost atins numărul maxim de iterații.
Analiza datelor
–III.
Etapa de verificare
– Eroarea totală a rețelei se calculează după parcurgerea tuturor

iterațiilor astfel:
– La final, algoritmul va furniza valorile parametrilor reţelei
rezultate din antrenare, care vor fi notate prin Wf (pentru
ponderi) şi bf (pentru deplasări).
– Dacă nici una din condiţiile de stop nu este îndeplinită, se
continuă cu etapa următoare a iteraţiei curente.
Analiza datelor
–IV. Etapa de actualizare a parametrilor
– Se construieşte matricea erorilor:

pe baza căreia se calculează noile valori ale parametrilor pentru
iterația următoare (t+1):
i) pentru ponderi:
ii) pentru deplasări:
Analiza datelor
– Etapa testare și validare

V.
– Acuratețea modelului se testează și se validează pe date noi,
verificându-se abaterea dintre ieșirea rețelei și valorile actuale
ale vectorului Y.
Analiza datelor
Tipuri de rețele neuronale (

https://www.digitalvidya.com/blog/types-of-neural-networks ):
- MLP feed-forward with back propagation;
- Radial Basis Function Neural Network
- Recurrent Neural Network(RNN) – Long Short Term Memory
- Deep Neural Network (DNN)
Rețelele neuronale au aplicabilitate în diferite domenii pentru
recunoașterea formelor, predicții și automatizarea anumitor
procese.
Studiu de caz
Estimarea producției de energie electrică din surse

eoliene/fotovoltaice
– Surse de date: senzori instalați în parcurile eoliene/fotovoltaice;
date meteo;
– Algoritmi utilizați: rețele neuronale de tip MLP feed-forward;
Deep Neural Networks (DNN), metode de tip Ensemble:
Random Forests și Gradient Tree Boosting;
– Implementare în Python;
Studiu de caz
Rezultate obținute – parc fotovoltaic:
RMSE ANN: 230.06851824547266
R ANN: 0.9628781290881446
RMSE DNN: 215.3895747271413
R DNN: 0.9799338674974896
RMSE GBR: 2.1338566427332633
R GBR: 0.9999980305507391
RMSE RF: 178.32678004648503
R RF: 0.9862454161948575
RMSE REGRESIE: 370.6490623080353
R REGRESIE: 0.9405789762824392
Studiu de caz
Internet of Things & Big
Data
Data
Data

Analiza Volumelor Mari de Date

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Analiza Volumelor Mari de Date

Încărcat de

Drepturi de autor:

Formate disponibile

Analiza

Etape pentru analiza datelor:

Sursa: Sarah Butcher (https://news.efinancialcareers.com/dk-en/285249/machine-learning-and-big-data-j-p-morgan )

Tehnici de tip Machine Learning utilizate în analiza datelor:

Sursa: Coding Deep Learning For Beginners (

Rețele neuronale artificiale utilizate în

– Reţele de tip perceptron sunt reţelele neuronale feed-forward cu

Input layer X: Output layer Y:

– Parametrii rețelei sunt formați din numărul de straturi ascunse

– Presupunem că avem o reţea neuronală net cu un singur strat cu

–I. Etapa de inițializare

– Se organizează vectorii şi sub forma matricelor: și ieșirile

–II. Etapa de prezentare

– Pentru valorile curente ale parametrilor rețelei se calculează

– Organizate sub forma matricei

– Se calculează vectorii erorilor ca diferențe între vectorii țintă și

– Algoritmul se oprește dacă este îndeplinită una din următoarele

– Eroarea totală a rețelei se calculează după parcurgerea tuturor

–IV. Etapa de actualizare a parametrilor

– Se construieşte matricea erorilor:

– Etapa testare și validare

Tipuri de rețele neuronale (

Estimarea producției de energie electrică din surse

S-ar putea să vă placă și