Big Data

Big Data și
Securitate Cibernetică
Structură curs
Cursul nr. Componentă
1, 2, 3 Big Data - Scraping
4, 5, 6 Securitate Cibernetică
7 Predare proiect
7 Examen final
Punctaj
Punctaj Componentă
6 puncte Examen final tip grilă
4 puncte Proiect în echipe de

maxim 3 studenți
Cuprins
1. Ce reprezintă Big Data?
2. Caracteristicile Big Data
3. Procesarea Big Data
4. Utilitatea Big Data
5. Scraping ca instrument Big Data

Introducere în
Big Data
Ce reprezintă
Big Data?
Ce reprezintă Big Data
Descriere simplă
● Conceptul de Big Data se referă la volume mari de

date, care continuă sa se acumuleze în timp și care
provin din mai multe surse.
● Exemplu: Analiza percepției publicului asupra unui produs/serviciu
● În prezent, în fiecare zi sunt generate 2.5 exabytes

(2.5x260 bytes – 2.5 Milioane de Terrabytes) de date. Volumul de
date se dublează la aproximativ fiecare 3 ani, încă
din anii 1980.
Big Data: Volume mari de date
● Aceste volume imense de date sunt generate de diverse tipuri de dispozitive, precum
● PC-uri, Laptop-uri, Tablete sau Telefoane mobile
● Dispozitive IoT
● Camere și microfoane
● Sisteme de navigatie tip GPS
● Etc.
În prezent, termenul “Big Data” se referă la utilizarea
● analizei predictive
● analizei comportamentului utilizatorului
Analiza predictivă pornește de la situații anterioare sau prezente, construind predicții

referitoare la evenimente viitoare necunoscute.
● Aplicații de ride-sharing, pentru determinarea tarifului dinamic
● Aplicații de video-streaming, pentru oferirea recomandărilor
● Aplicații Social Media, pentru recomandări de conținut
Analiza comportamentului utilizatorilor este un proces cu implicații în domeniul securității

cibernetice, ce evaluează diverse tipare pentru a stabili potențialele fraude
● Aplicabilitate largă în sfera securității cibernetice
● Protejarea conturilor: detectarea loginurilor suspecte.
Caracteristicile
Big Data
Caracteristicile Big Data
Volum Velocitate Varietate

Cantități foarte mari Acumularea rapidă Surse de date
de date de date noi diferite
Caracteristicile Big Data
Pe lângă cele 3 caracteristici principale ale Big Data prezentate anterior,
mai amintim:
1. Veracitate (veridicitate)
• date ce reflectă situații reale
2. Valoare
• ce poate fi obținut cu seturile de date
3. Validitate
• corectitudinea datelor
4. Volatilitate
• Datele își pot pierde relevanța
Big Data – Procesarea datelor
Pentru procesarea și analiza volumelor mari de date, se preferă modele de tip MapReduce,
în detrimentul tehnicilor clasice de procesare și analiză
pentru volume foarte mari de date.
MapReduce reprezintă un model de analiză a datelor ce utilizează procesarea paralelă pe

clustere de servere, de obicei Apache Hadoop clusters.
MapReduce facilitează procesarea concurentă a datelor, împărțind volumele mari de date

în subseturi de dimensiuni relativ reduse, ce vor fi procesate pe clusterele de servere
Apache Hadoop. În final, ulterior procesării, MapReduce colectează informațiile de la
fiecare server în parte, prezentând rezultatele consolidate și unificate.
FS tradițional vs HDFS
File System tradițional Hadoop Distributed FS
Metodă de Datele sunt stocate într-un Datele sunt împărțite în multiple

stocare singur bloc, i.e. 1 fișier blocuri
Obținere Citirea volumelor mari de date Date sunt obținute foarte rapid
date este ineficientă (2GB/s/nod în cluster)
Costuri Costuri relativ reduse Costuri mai mari, întrucât datele
sunt replicate
Fiabilitate Fiabilitate în cote acceptabile Fiabilitate sporită, datorată
replicării datelor
Utilitatea
Big Data
NETFLIX
Studiu de caz
Netflix are 150 milioane de utilizatori. Colectează numeroase statistici de la

aceștia, precum:
● Ce seriale urmăresc și pentru cât timp
● În cât timp termină un serial
● Dacă un film este revăzut
● Dacă se folosește subtitrare
● etc.
NETFLIX stochează informații inclusiv despre scenele pe care le

revedem, derulând înapoi.
Astfel, NETFLIX poate crea profile de utilizatori foarte concludente,

oferindu-le recomandările necesare și generând nou conținut targetat.
WAZE
Studiu de caz
Sistemele tradiționale de navigare utilizau coordonate statice GPS pentru a

determina ruta optimă.
Aplicația de navigație GPS Waze, care este folistă în prezent de

aproximativ 90 milioane utilizatori, colectează de la toți utilizatorii săi
statistici precum
• Direcția de deplasare
• Viteza de deplasare
• Blocaje în trafic
• etc.
Aplicația analizează în timp real și actualizează ruta pe măsura ce noi date devin
disponibile, pentru a scurta timpul petrecut în trafic
FUN FACT: Waze & Costa Rica

Scraping
pentru obținerea datelor
Ce reprezintă Scraping-ul
Descriere simplă
● Conceptul de Scraping se referă la tehnica obținerii

de volume largi de date publice, direct de pe site-
urile web.
● Există controverse în jurul scraping-ului, unele site-
uri web interzicând preluarea automată de conținut
public de pe paginile lor.
● Platforme de eCommerce consacrate, precum eMag,
au dezvoltat sisteme anti-scraping.
Cum funcționează un scraper?
Procesul de Scraping este compus în principal din 3 pași:
1. Obținerea structurii HTML a unei pagini
2. Analiza (parsing) acesteia și extragerea informațiilor necesare
3. Stocarea datelor
În mod programatic, cei 3 pași vor fi îndepliniți astfel:
4. Trimiterea unui request de tip HTTP către pagina web, pentru obținerea structurii HTML
5. Analiza structurii HTML și detectarea tiparelor pentru a stabili elementele HTML care conțin
informațiile dorite
6. Utilizarea stocării în fișiere locale, de tip JSON/CSV sau în cadrul unei baze de date (preferabil
NoSQL)
Scraping
Avantaje pentru Big Data
Automat Precis
Procesul nu are nevoie de Elimină eroarea umană
intervenție umană din ecuație
Rapid Economic
Volume mari de date pot Cosuri extrem de reduse,
fi obținute în secunde adesea gratis

Big Data

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Big Data

Încărcat de

Drepturi de autor:

Formate disponibile

Big Data și

Cursul nr. Componentă

1, 2, 3 Big Data - Scraping

6 puncte Examen final tip grilă

4 puncte Proiect în echipe de

2. Caracteristicile Big Data

3. Procesarea Big Data

4. Utilitatea Big Data

5. Scraping ca instrument Big Data

● Conceptul de Big Data se referă la volume mari de

● În prezent, în fiecare zi sunt generate 2.5 exabytes

● PC-uri, Laptop-uri, Tablete sau Telefoane mobile

● Sisteme de navigatie tip GPS

Analiza predictivă pornește de la situații anterioare sau prezente, construind predicții

Analiza comportamentului utilizatorilor este un proces cu implicații în domeniul securității

Volum Velocitate Varietate

MapReduce reprezintă un model de analiză a datelor ce utilizează procesarea paralelă pe

MapReduce facilitează procesarea concurentă a datelor, împărțind volumele mari de date

Metodă de Datele sunt stocate într-un Datele sunt împărțite în multiple

Netflix are 150 milioane de utilizatori. Colectează numeroase statistici de la

NETFLIX stochează informații inclusiv despre scenele pe care le

Astfel, NETFLIX poate crea profile de utilizatori foarte concludente,

Sistemele tradiționale de navigare utilizau coordonate statice GPS pentru a

Aplicația de navigație GPS Waze, care este folistă în prezent de

FUN FACT: Waze & Costa Rica

● Conceptul de Scraping se referă la tehnica obținerii

2. Analiza (parsing) acesteia și extragerea informațiilor necesare

În mod programatic, cei 3 pași vor fi îndepliniți astfel:

S-ar putea să vă placă și