Documente Academic
Documente Profesional
Documente Cultură
WORKING SETS
ION ALEXANDRU
I NGI NER I A SISTEMELOR INTER NET
2 1 ,0 5 ,2 0 1 5
INTRODUCERE
Apache Spark a inceput ca un proiect de cercetare la UC Berkeley in
AMPLab, si se baza pe analiza volumelor mari de date.
Variabile comune
• Acumulatori si variabile de broadcast ce pot fi folosite in functii
CUM FUNCTIONEAZA
RESILIENT DISTRIBUTED
DATASETS (RDDS)
RDD este o colectie de obiecte read only partitionate la un set de
masini care pot fi reconstruite daca o partitie se pierde.
Transformari
• Map
• Filter
• Join
Actiuni
• Count
• Colect
• Save
OBIECTE RDD
Operatiuni Actiune
partitions() Returneaza o lista cu obiectele partitiei