Sunteți pe pagina 1din 21

Big Data și

Securitate Cibernetică
Structură curs

Cursul nr. Componentă

1, 2, 3 Big Data - Scraping

4, 5, 6 Securitate Cibernetică

7 Predare proiect

7 Examen final
Punctaj

Punctaj Componentă

6 puncte Examen final tip grilă

4 puncte Proiect în echipe de


maxim 3 studenți
Cuprins
1. Ce reprezintă Big Data?

2. Caracteristicile Big Data

3. Procesarea Big Data

4. Utilitatea Big Data

5. Scraping ca instrument Big Data


Introducere în

Big Data
Ce reprezintă
Big Data?
Ce reprezintă Big Data
Descriere simplă

● Conceptul de Big Data se referă la volume mari de


date, care continuă sa se acumuleze în timp și care
provin din mai multe surse.
● Exemplu: Analiza percepției publicului asupra unui produs/serviciu

● În prezent, în fiecare zi sunt generate 2.5 exabytes


(2.5x260 bytes – 2.5 Milioane de Terrabytes) de date. Volumul de
date se dublează la aproximativ fiecare 3 ani, încă
din anii 1980.
Ce reprezintă Big Data
Big Data: Volume mari de date
● Aceste volume imense de date sunt generate de diverse tipuri de dispozitive, precum

● PC-uri, Laptop-uri, Tablete sau Telefoane mobile

● Dispozitive IoT

● Camere și microfoane

● Sisteme de navigatie tip GPS

● Etc.
Ce reprezintă Big Data
În prezent, termenul “Big Data” se referă la utilizarea
● analizei predictive
● analizei comportamentului utilizatorului

Analiza predictivă pornește de la situații anterioare sau prezente, construind predicții


referitoare la evenimente viitoare necunoscute.
● Aplicații de ride-sharing, pentru determinarea tarifului dinamic
● Aplicații de video-streaming, pentru oferirea recomandărilor
● Aplicații Social Media, pentru recomandări de conținut

Analiza comportamentului utilizatorilor este un proces cu implicații în domeniul securității


cibernetice, ce evaluează diverse tipare pentru a stabili potențialele fraude
● Aplicabilitate largă în sfera securității cibernetice
● Protejarea conturilor: detectarea loginurilor suspecte.
Caracteristicile
Big Data
Caracteristicile Big Data

Volum Velocitate Varietate


Cantități foarte mari Acumularea rapidă Surse de date
de date de date noi diferite
Caracteristicile Big Data
Pe lângă cele 3 caracteristici principale ale Big Data prezentate anterior,
mai amintim:

1. Veracitate (veridicitate)
• date ce reflectă situații reale
2. Valoare
• ce poate fi obținut cu seturile de date
3. Validitate
• corectitudinea datelor
4. Volatilitate
• Datele își pot pierde relevanța
Big Data – Procesarea datelor
Pentru procesarea și analiza volumelor mari de date, se preferă modele de tip MapReduce,
în detrimentul tehnicilor clasice de procesare și analiză
pentru volume foarte mari de date.

MapReduce reprezintă un model de analiză a datelor ce utilizează procesarea paralelă pe


clustere de servere, de obicei Apache Hadoop clusters.

MapReduce facilitează procesarea concurentă a datelor, împărțind volumele mari de date


în subseturi de dimensiuni relativ reduse, ce vor fi procesate pe clusterele de servere
Apache Hadoop. În final, ulterior procesării, MapReduce colectează informațiile de la
fiecare server în parte, prezentând rezultatele consolidate și unificate.
FS tradițional vs HDFS
File System tradițional Hadoop Distributed FS

Metodă de Datele sunt stocate într-un Datele sunt împărțite în multiple


stocare singur bloc, i.e. 1 fișier blocuri
Obținere Citirea volumelor mari de date Date sunt obținute foarte rapid
date este ineficientă (2GB/s/nod în cluster)
Costuri Costuri relativ reduse Costuri mai mari, întrucât datele
sunt replicate
Fiabilitate Fiabilitate în cote acceptabile Fiabilitate sporită, datorată
replicării datelor
Utilitatea
Big Data
NETFLIX
Studiu de caz

Netflix are 150 milioane de utilizatori. Colectează numeroase statistici de la


aceștia, precum:
● Ce seriale urmăresc și pentru cât timp
● În cât timp termină un serial
● Dacă un film este revăzut
● Dacă se folosește subtitrare
● etc.

NETFLIX stochează informații inclusiv despre scenele pe care le


revedem, derulând înapoi.

Astfel, NETFLIX poate crea profile de utilizatori foarte concludente,


oferindu-le recomandările necesare și generând nou conținut targetat.
WAZE
Studiu de caz

Sistemele tradiționale de navigare utilizau coordonate statice GPS pentru a


determina ruta optimă.

Aplicația de navigație GPS Waze, care este folistă în prezent de


aproximativ 90 milioane utilizatori, colectează de la toți utilizatorii săi
statistici precum
• Direcția de deplasare
• Viteza de deplasare
• Blocaje în trafic
• etc.
Aplicația analizează în timp real și actualizează ruta pe măsura ce noi date devin
disponibile, pentru a scurta timpul petrecut în trafic

FUN FACT: Waze & Costa Rica


Scraping
pentru obținerea datelor
Ce reprezintă Scraping-ul
Descriere simplă

● Conceptul de Scraping se referă la tehnica obținerii


de volume largi de date publice, direct de pe site-
urile web.
● Există controverse în jurul scraping-ului, unele site-
uri web interzicând preluarea automată de conținut
public de pe paginile lor.
● Platforme de eCommerce consacrate, precum eMag,
au dezvoltat sisteme anti-scraping.
Cum funcționează un scraper?
Procesul de Scraping este compus în principal din 3 pași:
1. Obținerea structurii HTML a unei pagini

2. Analiza (parsing) acesteia și extragerea informațiilor necesare

3. Stocarea datelor

În mod programatic, cei 3 pași vor fi îndepliniți astfel:

4. Trimiterea unui request de tip HTTP către pagina web, pentru obținerea structurii HTML

5. Analiza structurii HTML și detectarea tiparelor pentru a stabili elementele HTML care conțin
informațiile dorite

6. Utilizarea stocării în fișiere locale, de tip JSON/CSV sau în cadrul unei baze de date (preferabil
NoSQL)
Scraping
Avantaje pentru Big Data

Automat Precis
Procesul nu are nevoie de Elimină eroarea umană
intervenție umană din ecuație

Rapid Economic
Volume mari de date pot Cosuri extrem de reduse,
fi obținute în secunde adesea gratis

S-ar putea să vă placă și