Sunteți pe pagina 1din 2

Sa presupunem ca sunteti o companie care incearca sa raspunda la urmatoarele intrebari:

- Care dintre oportunitatile viitoare au probabilitatea cea mai mare de a fi inchise cu succes?
- Care sunt cei mai importanti factori care duc la cresterea vanzarilor?
- In ce magazine ar trebui sa-mi desfasor noua campanie de marketing? Pe ce grupuri de clienti?
- Care e probabilitatea ca un anumit client sa-si reinnoiasca contractul?
- Care sunt clientii care in perioada urmatoare sunt cel mai probabili sa plece?

Pentru a raspunde la asemenea intrebari, de cele mai multe ori se analizeaza o serie de date istorice
(care provin de obicei din interactiunea cu utilizatorii unor aplicatii software) si se face o proiectie sau
pentru viitor. Astfel s-a nascut unul din cele mai cautate si bine platite joburi din IT in ultimii ani: Data
Scientist.

El e cel care analizeaza istoricul si e capabil sa gaseasca un algoritm care sa prezica viitorul. Exista de
multe ori confuzii in legatura cu responsabilitatile pe care le presupune rolul de Data Scientist, confuzii
care vin de cele mai multe ori din doua directii.

Prima este cea a abilitatilor si pregatirii necesare si aici vorbim despre un amalgam greu de gasit intr-o
singura persoana. Este nevoie de statistica si matematica (uneori la un nivel avansat), de programare (de
cele mai multe ori, R, Python, sau chiar Java/Scala), de cunostinte de machine learning (Clustering, k-NN,
Naive Bayes, SVM, Decision Forests), dar si de cunostinte avansate in contextul lucrului cu date:
interogare, prelucrare si vizualizare (SQL + Analytics + instrumente de vizualizare de genul D3.js).

Cea de-a doua sursa de confuzii vizeaza un alt concept foarte la moda in present si anume Big Data.
Conform Gartner, Big Data se refera la volum, viteza si varietate, toate in contextul datelor. In general
termenul de Big Data se foloseste cu referire la un volum foarte mare de date (TB sau PB), a caror
prelucrare si stocare presupune utilizarea unor sisteme care automatizeaza si permit realizarea in
paralel a sarcinilor de lucru.

Sursele Big Data sunt de cele mai multe ori Internet-ul, senzorii, logurile, etc. Data Scientist-ul va fi cel
care analizeaza acesti munti de date pentru a gasi corelatii, modele si algoritmi care pot fi folositi drept
suport decizional. Asadar Big Data se refera la stocare si procesare, in timp ce Data Science (in traducere
fortata stiinta datelor) va “intelege” datele respective.

Noțiuni introductive

Ca drept exemplu, am completat câteva căsuțe în dreptul limbajelor pe care le voi folosi în articole, în
funcție de interes, chef și gust.

Arie Subiect Din engleză C# Python Java R

Clasificarea datelor Classification

1
Arie Subiect Din engleză C# Python Java R

Regresii Regression

Random K-
Modelarea Grupare Means;
Clustering
problemelor K-Means cu ELKI Forgy K-
Means

Serii de timp Time series

de definit, multe capitole


Modelarea micro…
datelor de intrare
și de ieșire Ce înseamnă model de
învățare?

Evaluarea învățării

Învățarea în timp real


Învățarea în
inteligența
Învățare supravegheată
artificială
Învățare
nesupravegheată

Normalizarea
Normalizare de detaliat… Normalizing observațiilor
nominale

de definit, multe capitole


Vectori micro (exemplu: tipuri de
distanțe)…

de definit, multe capitole


Random
micro…

Erori de definit

Machine Learning de definit, multe capitole

S-ar putea să vă placă și