Documente Academic
Documente Profesional
Documente Cultură
Ad-Hoc Traditional
Expertiza
domeniu
Data
Engineering
Data Science
Computer Matematica
Science & Statistica
Machine
Learning
CE INSEAMNA DATA
SCIENCE
Domeniu de activitate pentru cei care:
• Fac cercetari pentru a raspunde la intrebari specializate
domeniului
• Utilizeaza volume mari de date pentru a furniza raspunsurile
cerute
• Pregatesc datele pentru a fi utilizate in studii inferentiale si
predictive
• Exploreaza datele pentru a gasi pattern-uri ascunse
• Automatizeaza procesele pentru studii statistice
• Prezinta rezultatele catre cei care iau decizii
CE INSEAMNA DATA
ENGINNERING
Domeniu de activitate pentru cei care:
• Dezvolta, construiesc, opereaza si intretin arhitecturi si solutii
pentru procesarea si stocarea datelor
• Aliniaza arhitecturile si solutiile la cerintele proceselor de
prelucrare de date
• Descopera noi modalitati de achizitii de date
• Dezvolta si implementeaza procese pentru data cleansing,
data modelling, data mining, etc.
• Recomanda proceduri pentru imbunatatirea calitatii, eficientei
si sigurantei datelor
DE CE NU E UTILIZAT
MODELUL
• Lipsa cererii interne
• Costuri
• Utilzare in procese
• Inlocuirea data scientist cu alti profesionisti interni existenti
• Utilizarea de combinatii medic/programator pentru sarcini
punctuale
• Lipsa increderii in rezultatul analizei de date (analytics vs.
instinct)
AGENDA
Elemente de ICT
• Hardware
• Software
• Storage
• Comunicatii
Modele de utilizare
• Datacenter
• Cloud Computing
DEFINITII GENERALE
Bioinformatica: este o arie interdisciplinara care dezvolta metode
si unelte software utilizate pentru studiul datelor biologice,
combinind ingineria software cu statistica si matematica. Este o
“umbrela” pentru cercetari in zona genetica/genomica
Informatica medicala: reprezinta aplicarea directa a tehnologiilor
ICT in medicina. Este o arie multidisciplinara care utilizeaza
tehnici ICT pentru a imbunatatii calitatea, eficienta si inovatia in
domeniul sanatatii. Zonele acoperite sint gestiunea resurselor, a
echipamentelor si metodelor necesare achizitiei, stocarii, regasirii
si utilizarii informatiei cu caracter medical.
Sursa: Wikipedia
HARDWARE
COMPUTING, STORAGE,
COMMUNICATIONS
DATA PROCESSING
DEFINITIE
Server software= o instanta functionala a unei aplicatii software
care primeste cereri de la o alta entitate software la care ofera un
raspuns adecvat serviciului oferit
Server hardware = defineste echipamentul special destinat
gazduirii aplicatiilor software care ofera un anumit serviciu
Primary
Secondary
Tertiary
Source: Wikimedia
DATA STORAGE
FUNCTIONALITATI
Protectie la erori
• Codare speciala pentru detectie/corectie de erori (CRC)
Criptare
• Utilizare de algoritmi speciali pentru prevenirea accesului neautorizat
(LRW)
Redundanta
• Utilizare de arhitecturi de sistem specializate pentru a evita
pierderea datelor critice (RAID)
Acces la distanta
• Utilizare de protocoale speciale pentru accesul datelor pe sisteme
remote (SAN/NAS)
DATA STORAGE
RAID
RAID (Redundant Array of Independent Disks) permite gruparea mai
multor discuri intr-o singura unitate logica in scopul evitarii pierderii
datelor si a cresterii performantelor de acces
Modul de distributie al datelor pe discurile fizice este dat de “RAID
level” (RAID <N>)
Scopuri:
• Siguranță (Reliability)
• Disponibilitate (Availability)
• Performanta
• Capacitate
DATA STORAGE
RAID
Nivel Reliability Availability Performance Capacity Obs
RAID 0 - - X X Stripping
RAID 1 X X - - Mirroring
RAID 2 X X - x Bit-level Stripping,
Dedicated Parity
RAID 3 X X X X Byte-level Stripping,
Dedicated Parity
RAID 4 X X X X Block-level Stripping,
Dedicated Parity
RAID 5 X X X X Block-level Stripping,
Distributed Parity
RAID 6 X X X X Block-level Stripping,
Parity
Double Distributed
Parity
Exista si Hybrid (Nested) RAID – combinatii ale tipurilor fundamentale (ex. RAID 10)
DATA STORAGE
CARACTERISTICI
Volatilitate: dependenta (sau nu) de prezenta alimentarii cu energie
electrica
Mutabilitate: posibilitatea de a face operatii de citire/scriere sau doar
de citire
Accesibilitate: posibilitatea de a accesa (sau nu) orice locatie in
acelasi timp, independent de pozitie
Adresabilitate: defineste unitatea atomica de informatie adresabila
(bit, byte, fisier)
Capacitate: defineste capacitatea totala de stocare
Performanta: defineste timpul de acces la o anume locatie si
capacitatea de transfer (in/out) a datelor
Consum: cantitatea de energie necesara accesarii unei cantitati
predefinite de informatie intr-un interval de timp
DATA STORAGE
TEHNOLOGII
Stocare
• Semiconductor
• Magnetic
• Optic
Acces
• DAS (Direct Attached Storage) – sistemul de stocare este atasat fizic
direct cu sistemul de prelucrare
• NAS (Network Attched Storage) – sistemul de stocare este conectat
de sistemul de prelucrare prin intermediul LAN/WAN si ofera acces
direct la fisiere
• SAN (Storage Area Network) – sistemul de stocare este conectat de
sistemul de prelucrare prin intermediul unei retele specializate si
ofera acces direct la blocuri de disk
DATA TRANSMISSION
DEFINITII
Data trasmission/communications: defineste transmiterea (fizica)
a datelor reprezentate in forma unui semnal electromagnetic,
intre sisteme conectate prin canale punct-la-punct sau punct-la-
multipunct (electrice, magnetice, optice)
Transmisia poate fi:
• Analogica
• Digitala
DATA TRANSMISSION
MODELUL TCP
Source: Wikimedia
DATA TRANSMISSION
MODELUL TCP
Source: Wikimedia
DATA TRANSMISSION
CARACTERISTICI
Aria acoperita
• PAN (Personal Area Network)
• LAN (Local Area Network)
• MAN (Metropolitan Area Network)
• WAN (Wide Area Network)
Capacitatea (viteza) de transmisie
• Kbps, Mbps, Gbps
Mediul de transmisie
• Shared
• Point-to-point
Protocolul de transmisie
DATA TRANSMISSION
TEHNOLOGII
Wired
• Ethernet
• Fiber Channel
• History = {Token Ring, ATM, Frame Relay}
Wireless
• PAN (Personal Area Network): Bluetooth, zigBee
• LAN (Local Area Network): WiFi
• MAN (Metropolitan Area Network): WiMAX
• WAN (Wide Area Network): Cellular 2G/3G/4G
SOFTWARE
COMPUTING, STORAGE,
COMMUNICATIONS
SISTEME DE OPERARE
Sistem de operare (OS): software care administreaza resursele unui
computer si le pune la dispozitia aplicatiilor
Resursele hardware uzuale sint:
• Memorie
• CPU
• I/O (devices)
Resursele software uzuale sint:
• Sistem de fisiere
• Gestiunea proceselor
• Gestiunea intreruperilor
SISTEME DE OPERARE
Tipuri de OS:
• Multi-tasking/Multi-user
• Real-time
• Embedded
Source: Wikimedia
VIRTUALIZARE
DEFINITII
Virtualizare: reprezinta gruparea si abstractizarea resurselor si
serviciilor intr-un mod in care natura si limitele fizice ale acestora
sint ascunse utilizatorilor
Source: Gardner
VIRTUALIZARE
COMPUTING - HARDWARE
Hardware (full) virtualization: crearea unui “masini virtuale” care
din puctul de vedere al OS se comporta ca un computer real, cu
resurse proprii, partitionate din resursele reale ale masinii fizice
pe care ruleaza.
VIRTUALIZARE
COMPUTING - HARDWARE
Presupune existenta unui “Host
OS” transformat in “hypervisor” si
a unui “Guest OS” cel in care
ruleaza aplicatiile dorite
Exista si alte metode de
virtualizare (ex. la nivel de OS),
dar utilizarea este restrinsa
VIRTUALIZARE
SERVER
Hypervisor
OS+App Hypervisor
OS+App Hypervisor
OS+App Hypervisor
OS+App Hypervisor
OS+App
OS+App OS+App
OS+App OS+App
OS+App OS+App
OS+App OS+App
OS+App OS+App
OS+App OS+App
OS+App OS+App
OS+App OS+App
OS+App OS+App
OS+App OS+App
Hypervisor Hypervisor
Zone
Pod
Network
Servers
Storage
10 Gigabit Ethernet
10GbE Core WAN
10 Gigabit DCE
DC Aggregation
SAN A/B
10GbE Agg MDS 9500
10GbE VSS Agg DC Services
DC Services Storage Core
DC Access
Serviciu Elasticitate
Caracteristici
masurabil rapida
Esentiale Resurse
Self Service Broad Network
organizate in
la cerere Access
grupuri mari
Modele de
livrare Public Private Hybrid Community
http://www.csrc.nist.gov/groups/SNS/cloud-computing/index.html
MODELE DE LIVRARE CLOUD
COMPUTING
Resursele si serviciile IT sint oferite
Public Cloud catre toata lumea folosind Internet-ul
public
Resursele si serviciile IT sint oferite
Private Cloud utilizatorilor dintr-o singura
NIST
organizatie
Federalizarea, automatizarea si
Hybrid Cloud integrarea cooperativa dintre could-ul
public si cel privat