Sunteți pe pagina 1din 13

Universitatea Tehnica "Gheorghe Asachi" Iasi

Facultatea de Constructii de Masini si Management Industrial

Practica 2020

Big Data and Data


Analytics
Referat

Ciobanu Malina/Mutu Stefan-Cornel


Cuprins

Definire pag 2
Clasificare pag 5
Avantaje pag 7
Dezavantaje pag 8
Domeniul de utilizare si exemple de pag 9
utilizare
Direcții de dezvoltare pag 11
Bibliografie pag 12

1
Definitie:

Analiza datelor cuprinde tehnici și procese calitative și cantitative utilizate pentru a spori
productivitatea și câștigul de afaceri. Datele sunt extrase și clasificate pentru a identifica și
analiza acțiuni și tipare comportamentale, iar tehnicile variază în funcție de cerințele
organizaționale.

Analiza datelor se referă la informațiile de afaceri (BI). Cu toate acestea, BI analizează


interpretarea datelor din trecut, în timp ce analizele pot prezice și viitorul.

Când analiza se extinde dincolo de BI și acoperă domenii precum extragerea de date/text,


învățarea automată, previziune, analiza semantică, analiza sentimentului și potrivirea modelului.

Aceasta poate fi denumită ”analiză avansată”. Analiza avansată este autonomă sau semi-
autonomă. Necesită o interacțiune umană mai mică pentru interpretare.

Analiza datelor este formata din 5 pasi:

 Înțelegeți ce tipuri de date aveți nevoie pentru a răspunde la întrebări specifice și decideți
obiectivele studiului. Când vă scufundați în date ambigue și nestructurate, ar trebui să
veniți cu ipoteze de validat.

 Colectați datele, în funcție de cerințele dvs. Aceste date pot include analize cantitative și
calitative. Analistii de date pot colecta aceste date intern prin intermediul
managementului relațiilor cu clienții (CRM) și al software-ului de planificare a resurselor
întreprinderilor (ERP) și surse externe precum birourile de recensământ, API-urile, datele
publice Google și site-urile terțe părți.Datele calitative primare sunt mai puțin utilizate de
analiștii de date decât datele cantitative, dar pot cuprinde interviuri și observații în
persoană.Când colectați date, veți dori să vă asigurați consecvența în metodologia dvs.
(de exemplu, punând tuturor persoanelor intervievate aceleași întrebări).

2
 Curățați datele. Cu un set de date inițial, puteți găsi date lipsă, incomplete sau repetitive,
care pot prejudicia rezultatele.Veți dori să verificați valorile superioare și să asigurați
valorile, cum ar fi media, mediul, modul și intervalul, să aibă sens având în vedere
contextul.Uneori, trebuie să convertiți datele într-un format care poate fi citit de
instrumentele de analiză a datelor.

 Analizați datele prin intermediul instrumentelor selectate de organizația dvs. și verificați


semnificația statistică a rezultatelor.

 Compilați rezultatele. După ce datele sunt colectate și analizate, analiștii sunt adesea
însărcinați să le prezinte într-un format ușor de înțeles. Multe companii dezvoltă tablouri
de bord interne care urmăresc KPI-urile cheie prin intermediul graficelor și tabelelor.

Instrumente utilizate pentru analiza datelor:

La baza analizei datelor se află matematica și statisticile riguroase. Astăzi, pe lângă limbajele
statistice, există multe instrumente software bazate pe cloud care se adaptează nevoilor de afaceri
diferite:

 Excel. Pentru mai multe întrebări de bază, companiile pot începe cu Microsoft Excel, care
acceptă formule pentru a extrage informații din date și limbaje de codare precum VBA.

 SQL. limbajul de interogare structurat permite analistilor de date să extragă și să


manipuleze date din baze de date.

 Tableau. Tableau oferă un flux de lucru ușor de utilizat pentru aprovizionarea și


pregătirea datelor pentru analiză. De asemenea, oferă multe șabloane de vizualizare a
datelor (diagrame, grafice, hărți, tablouri de bord etc.).

 Rapidminer. Rapidminer integrează învățarea mașinii, extragerea textului, analiza


predictivă și alte funcționalități de manipulare a datelor.

3
 R sau Python. Aceste limbaje sunt utile pentru programarea statistică și sunt mult mai
eficiente și au timp de procesare mai rapid decât Excel.

 SAS. SAS este un pachet software cuprinzător pentru analize și statistici avansate.

 Google AdWords. Pentru datele referitoare la marketing, Google Ads oferă informații
despre cât de eficient ajunge publicitatea la anumite audiențe. Dacă are ca rezultat
comportamente dorite (click-uri, cumpărături etc.).

 Google Analytics vă poate arăta, de asemenea, cât de performant este website-ul dvs. sau
social media în ceea ce privește traficul, vizibilitatea și utilizarea.

4
Clasificare:
Tipuri de analiza a datelor
 Analitică descriptivă: Această analiză urmărește să explice ce s-a întâmplat cu variabile,
cum ar fi venituri, vânzări, costuri, date demografice, etc. Cu analize descriptive,
organizația caută tipare și tendințe. De exemplu, ce s-a întâmplat cu vânzările de
îmbrăcăminte pentru femei în luna iulie?

 Analitice de diagnostic: Analitica de diagnostic explică ”de ce” și ”cum” între un anumit
set de date. De exemplu, de ce au crescut vânzările în anumite magazine și nu în altele?

 Analitică predictivă: După cum sugerează și numele, analitica predictivă este despre a
prezice viitorul și ce acțiuni trebuie efectuate pe baza modului în care variabilele sunt
susceptibile să se comporte. De exemplu, va funcționa o promoție la un magazin din
orașul X, pe baza caracteristicilor și performanțelor orașului în regiuni geografice
similare? Analiza predictivă stă la baza învățării mașinii și a inteligenței artificiale.

 Analitică prescriptivă: Analiza prescriptivă determină ce acțiuni trebuie luate pentru a


îmbunătăți o situație sau a rezolva o problemă. De exemplu, deoarece promoția nu a
funcționat la fel de bine și a anticipat cu familiile, ce putem face pentru a impulsiona
creșterea în săptămânile următoare?

Caracteristicile Datelor Mari:

 Volum (cantitatea de date);


 Varietate (produse de diferite surse în diferite formate);
 Viteză (viteza de analiza online a datelor);
 Veracitate (datele sunt incerte și trebuie verificate);
 Valoare (evaluată prin analiză).

Tehnici de analiza a datelor:


 Analiza regresiei: Analiza regresiei este o metodă statistică care modelează relațiile și
corelațiile între diferite variabile.

 Analiza factorilor: Scopul analizei factorilor este de a găsi o structură defensivă care stă
la baza datelor.

5
 Analiza de grup: Analiza de grup necesită gruparea datelor în funcție de caracteristici
specifice.

 Analiza cluster: Analiza clusterului asigură că obiectele dintr-un grup sunt mai similare
între ele decât obiectele din alte grupuri.

 Analiza seriilor de timp: Când datele pot fi organizate în timp (de exemplu, prețurile
bursei), analiza seriilor temporale prevede comportamentul viitor.

 Analiza textului: Când analizăm e-mailurile, răspunsurile la sondajele deschise sau


website-uri, extragerea textului implică căutarea de tipare și informații sumare.

6
Avantaje:

Analiza datelor servește mai multor scopuri în funcție de industrie, dar acestea sunt unele dintre
cele mai frecvente probleme pe care le abordează întreprinderile prin intermediul analizei de
date.

 Prognoza vânzărilor. Pe baza creșterii vânzărilor, a performanței istorice și a tendințelor


viitoare ale pieței, companiile pot prezice numerele de vânzări viitoare cu o precizie mai
mare.
 Optimizarea prețurilor. Analiza datelor ajută companiile să determine elasticitatea
prețurilor diferitelor grupuri de clienți la diferite produse și servicii.
 Prevenirea fraudei. Emitenții de carduri de credit au folosit reguli pentru identificarea
tranzacțiilor suspecte.

Cu instrumente de analiză a datelor mari și instrumente de învățare automată mai mare, este mai
ușor să detectăm și să prezicem comportamentul infracțional.

Acest lucru se aplică, de asemenea, asigurărilor, serviciilor bancare și altor industrii preocupate
de securitate ridicată.

 Segmentarea, direcționarea și poziționarea marketingului. Analiza datelor poate arăta


dacă anumite tehnici de marketing, cum ar fi o campanie promoțională sau o infografie
de social media, conduc la răspunsul dorit.

Cu sisteme CRM și date demografice, companiile pot dobândi o vedere de ansamblu a clientului
și să înțeleagă mai bine comportamentul de cumpărare al acestora.

Prin umrare se vor urmări recomandări personalizate și cât mai multă personalizare.

Pentru marketingul online reprezintă o compenetă indisepnsabilă.

Eficiența operațională. Analizând diferitele etape ale unui protocol, este posibilă identificarea
blocajelor și adoptarea de îmbunătățiri

Prin adăugarea unei persoane în plus la o schimbare anume ar putea crește viteza de producție
sau schimbarea ordinelor de achiziții ar putea reechilibra oferta și cererea de inventar la locațiile
de vânzare cu amănuntul.

7
Dezavantaje:
Analiza datelor mari trebuie foarte bine gestionata ,absenţa unei abordări coordonate a guvernanţei
Big Data sau neglijarea imperativelor de integrare în guvernanţa şi managementul datelor unei organiza ţii
conducand la apariţia următoarelor situaţii de risc sau pericol:

 „inundarea” cu date care sunt dificil sau imposibil de reg ăsit şi analizat;

 neîndeplinirea conformităţii cu reglementările şi regulile interne, precum şi cu standardele


generale de calitate cum ar fi: Sarbanes-Oxley (SOX) sau Basel 2, Federal Rules of Civil
Procedure (FRCP) sau the Federal Rules of Evidence (FRE), the Health Insurance Portability
and Accountability Act (HIPAA) sau reglementări similare ale Uniunii Europene;
 suportarea unor pierderi financiare sau de reputa ţie;

 costuri sporite datorate unor politici neclare de retenţie a informa ţiilor.

8
Domeniul de utilizare:

Analiza datelor mari se foloseste in organizatiile mari ca metoda de colectare si processare a


datelor cu privire la stabilirea segmentului de piata favorabil afacerii in cauza si evolutia acestuia
pe parcursul anilor de desfasurare a activitatii.

Spre exemplu Davenport, Barth şi Bean afirmă că organizaţiile înoată într-un ocean de date în
expansiune, care sunt fie prea voluminoase, fie prea nestructurate pentru a putea fi gestionate şi
analizate prin metode tradiţionale. Printre sursele de date în plină dezvoltare pot fi enumerate
datele de tip clickstream de pe Web, conţinutul social media (tweet-uri, blog-uri, anunţurile de pe
peretele Facebook etc.) şi datele video din marketing-ul on-line, precum şi cele de divertisment
video. Big Data cuprind o gamă extrem de largă: de la date de voce generate în centre de tip „call
center”, la date de genomică şi proteomică din cercetarea biologică şi medicină. De remarcat că
doar o foarte mică parte a acestor informaţii este formatată în rânduri şi coloane, conform bazelor
de date convenţionale.
Companiile orientate spre exploatarea comercială a Big Data se diferenţiază în trei moduri
principale:
 Concentrarea pe fluxurile de date în detrimentul depozitelor de date: există mai multe
tipuri de aplicaţii ale Big Data. Primul tip susţine procesele de lucru ale organizaţiei, cum
sunt identificarea fraudelor în timp real sau evaluarea pacienţilor în medicină cu privire la
riscurile pentru sănătate. Un al doilea tip implică monitorizarea continuă a procesului
pentru a detecta evenimente sau situaţii ca: modificări ale percepţiei consumatorilor sau
necesitatea intrării în service a unui motor cu reacţie. Al treilea tip utilizeză Big Data
pentru a explora relaţiile în reţele sociale, cum ar fi prietenii propuşi pe LinkedIn şi
Facebook. În toate aceste aplicaţii, datele nu sunt constituite de "stocul" dintr-un depozit
de date, ci dintr-un flux continuu. Devine mai importantă evaluarea de fluxuri şi procese
continue decât ceea ce a avut loc în trecut. Aceasta reprezintă o schimbare substanţială
faţă de situaţia în care analiştii de date efectuau mai multe analize pentru a determina
semnificaţia într-o cantitate fixă de date. „Streaming Analytics” permite prelucrarea
datelor în timpul unui eveniment pentru îmbunătăţirea rezultatelor

9
 Utilizarea suportului experţilor în date (Data scientists) şi al dezvoltatorilor de produse şi
procese, mai puţin al analiştilor de date (Data analysts) : deoarece interacţiunea cu datele
în sine - obţinerea, extragerea, manipularea şi structurarea acestora - este critică pentru
orice analiză, personalul care lucrează cu Big Data trebuie să deţină abilităţi substanţiale
şi creative. Experţii în date înţeleg Analytics, dar sunt experimentaţi şi în TIC, având de
multe ori studii avansate în informatică, fizică computaţională, biologie ori ştiinţe sociale.
Setul lor actualizat de calificări în gestionarea datelor - incluzând programare,
competenţe matematice şi statistice, precum şi înţelegere a afacerii şi abilitatea de a
comunica eficient cu factorii de decizie - merge mult dincolo de ceea ce era necesar
pentru analiştii de date din trecut.
 Mutarea Analytics de la sistemul informatic către activitatea de bază şi funcţiunile
Revista Română de Informatică şi Automatică, vol. 26, nr. 1, 2016 operaţionale :
volumele de date în creştere necesită îmbunătăţiri majore în bazele de date şi tehnologiile
de Analytics. Preluarea, filtrarea, stocarea şi analiza fluxurilor de Big Data pot bloca
reţelele tradiţionale şi platformele de baze de date relaţionale. Încercările de a reproduce
şi a scala tehnologiile existente nu vor ţine pasul cu cerinţele Big Data, determinând
schimbarea tehnologiilor, abilităţilor şi proceselor TIC. Produse noi destinate să
prelucreze Big Data includ platformele open source, cum ar fi Hadoop, inventat pentru a
sprijini gama largă de date generate şi gestionate în Internet. Hadoop permite
organizaţiilor să încarce, stocheze şi interogheze seturi masive de date pe o reţea mare de
servere ieftine, precum şi să execute operaţii de Analytics avansate, în paralel. Bazele de
date relaţionale au fost, de asemenea, transformate: noile produse au performanţă de
interogare crescută cu un factor de 1.000 şi sunt capabile de a gestiona o mare varietate
de surse de Big Data. Pachetele de analiză statistică evoluează în mod similar pentru a
lucra cu aceste noi platforme de date, tipuri de date şi algoritmi.

10
Directii de dezvoltare:

 Analiza datelor a parcurs un drum lung și există multe alte progrese la orizont.
 Cu analize în timp real, datele pot fi raportate și acționate în acest moment.
 Prin ajustarea timpilor de așteptare afișați la un restaurant sau a locurilor disponibile la un
concert. Analiza  automată elimină multe dintre sarcinile obositoare și manuale asociate
cu introducerea datelor.
 Mai multe instrumente de date și software devin surse deschise. Ele oferă o modalitate
pentru organizațiile de orice dimensiune și buget să investească în capacitățile de date.
 Învățarea automată, învățarea profundă, procesarea limbajului natural și inteligența
artificială permit acum mașinilor să învețe din date și să ia decizii în mod autonom.
 Companiile mari de tehnologie lucrează la computere cuantice care vor revoluționa viteza
procesării datelor mari.
 Este o oportunitate pentru o cariera cu o evolutie sigura si usoara fiind un domeniu nou si
nu foarte bine stapanit inca in Romania

11
Bibliografie:

Clasificare, Dezavantaje, Domeniu de utilizare si exemple:ABORDĂRI ŞI SOLUŢII


SPECIFICE ÎN MANAGEMENTUL GUVERNANTA SI ANALIZA DATELOR DE MARI
DIMENSIUNI

Definitie, Avantaje , Directii de dezvoltare: Analiza datelor oportunitati si perspective

12