Documente Academic
Documente Profesional
Documente Cultură
Capitolul 2. Date
„Cea mai întâlnită greşeală în gătit este să foloseşti ingrediente de calitate proastă”
Definiția pentru Big Data: date prea mari sau prea complexe pentru a putea fi prelucrate
prin tehnologii standard de baze de date tradiţionale şi care trebuie manipulate cu alte
tehnologii avansate, suplimentare.
Definiţia standard: Datele să posede unul sau mai multe atribute de tip „V”:
Volume: datele manipulate sunt aşa de voluminoase astfel încât în mod frecvent
depăşesc capacitatea de stocare şi de procesare a serverului. Există soluţii pentru aceste
aspecte: soluţii scalabile vertical (cresc capacitatea de stocare sau viteza procesoarelor)
sau orizontal (folosesc servere mai ieftine, fără să închid serverul existent). Scalabilitatea
orizontală se recomandă atunci când:
- datele cresc prea repede în timp şi pot depăşi capacitatea de stocare şi
procesare a serverului existent;
- datele trebuie păstrate mai întâi fără o definiţie clară a schemei
relaţionale a datelor;
- datele pot fi necesare tot timpul şi nu pot fi arhivate sau serverul nu poate
fi oprit pentru mentenanţă.
Variety: afacerile se confruntă cu o mare varietate de date, cu o creştere
exponenţială, provenite din media socială, on line sau mobilă (vezi tipurile de date).
1
Analitica Afacerilor, 14 mai 2016
Datele din afaceri nu sunt numai date bine structurate (tranzacţii, date demografice despre
clienţi, date din chestionare); apar informaţii din senzori (personal devices), media on
line, aplicaţii pe mobil, smartphone-uri etc. Pentru a lucra cu ele şi a le putea folosi în
BA, trebuie stocate într-o formă ce poate fi ulterior utilizată.
Veracity: lipsa clarităţii sau a certitudinii asupra datelor;
Velocity: dacă viteza în termeni de date generate, analizate şi decizii luate este
mai mare decât infrastructura IT poate permite, atunci apare atributul Velocity pentru Big
Data. Viteza este deseori măsurată în fracţiuni de secundă în timp real sau cât îi ia unui
client să dea click pentru a părăsi site-ul afacerii.
2
Analitica Afacerilor, 14 mai 2016
2.2.2. Date despre consumatori individuali (atât clienţi proprii, cât şi cei care ar putea fi
interesaţi – vizitatori on-line)
- informaţii de identificare personală (nume, adresa şi mailul, nr. de telefon, ID de
client, ID Facebook);
- informaţii senzitive: cărţi de credit sau alte date; recomandat să nu se stocheze
astfel de date pentru modelare, ci să fie convertite într-un ID unic de client sau criptate;
- date demografice (vârstă, sex, nivel al educaţiei);
- informaţii despre familie, locuinţă (nr. de membri, active deţinute, venit mediu,
copii, vârstnici, animale de companie);
- valori financiare pe client (produse achiziţionate, cheltuiala medie pe produs şi
totală, procentul din venitul mediu alocat produselor companiei de client, trenduri
istorice);
- comportamentul clienţilor în achiziţii directe (când, câte, costuri unitare) sau on-
line (pagini, imagini, video, URL, click-uri, comentarii, termeni căutaţi, istoricul şi calea
căutării, durate de vizitare, nr. de logări, ultima logare);
- comportamentul în folosirea smart-phonurilor: date pasive (măsurate inerent de
telefon: GPS, utilizarea aplicaţiilor, baterie, WiFi, sistem de operare etc.) sau date active
(date suplimentare detectate de diferite aplicaţii: adrese de mail, nr. de telefon apelate sau
primite, contacte, site-uri vizitate, cuvinte cheie căutate etc.);
- date din media socială (Facebook, LinkedIn, Twitter etc) ce pot fi necesare
pentru a monitoriza trendurile, sentimentele, părerile consumatorilor;
3
Analitica Afacerilor, 14 mai 2016
4
Analitica Afacerilor, 14 mai 2016
Înainte ca orice dată să fie utilizată în BA, anumite aspecte trebuie clarificate şi
manageriate corect: integrarea, calitatea, securitatea, confidenţialitatea, guvernanţa,
prepararea şi analiza/investigarea datelor. Aceste aspecte legate de date pot determina
dacă o strategie/decizie a companiei (bazată pe BA) poate fi un succes sau eşua.
În prezent, datele provenind dintr-o singură sursă sunt rare în BA, adevăratele
provocări fiind acelea când datele provin din mai multe surse şi trebuie integrate.
5
Analitica Afacerilor, 14 mai 2016
Securitatea datelor
Studiile recente arată că sunt atacate mult mai des sistemele de POS decât
serverele companiilor. Securitatea datelor trebuie asigurată pe tot parcursul relaţionării cu
clientul (din momentul în care intră în magazin, on-line sau off-line, când navighează,
cumpără sau îi este oferit eventual un cupon de reducere pentru următoarea vizită).
Recomandare: Nicio bază de date folosită în BA nu ar trebui să conţină informaţii
personale identificabile (PII) (nume, adrese fizice sau de email, nr de telefon, conturi de
pe reţelele sociale sau parolele aferente). Toate acestea pot fi înlocuite cu un ID unic de
client. Apoi, atunci când este nevoie, alte date pot fi adăugate folosindu-se acest ID şi
ţinute separat faţă de baza de date personale iniţiale.
Confidenţialitatea datelor
Datorită evoluţiei societăţii, a dezvoltării mediei sociale şi mobile şi normelor
sociale, multe afaceri adoptă o strategie de tipul „mai întâi fă şi apoi cere-ţi scuze”. Ca
rezultat, multe companii au tendinţa să colecteze mai multe date decât este nevoie,
abuzând uneori de datele voluntar descrise de clienţi, ambiguităţi în acceptarea de
permisiuni şi politici de confidenţialitate vagi.
Confidențialitatea contextuală
Deoarece datele sunt absolut necesare pentru a dezvolta economia, orice
modificare în disponibilitatea datelor afectează economia şi în mod firesc şi consumatorii.
De aceea, trebuie găsit un echilibru între cele două: protecţia datelor şi bunurile publice
create prin data sharing. De ex., au fost luate măsuri de protecţie a datelor financiare
personale, dar limitate, pentru că erau necesare astfel de date în credit scoring.
Datorită complexităţii datelor recente despre consumatori/clienţi este necesar un
nou mod de gândire în BA: „confidenţialitatea contextuală”, definită ca „o practică de
afaceri în care colectarea şi utilizarea datelor personale este consemnată în cadrul unui
context dual agreat, cu scopuri mutual acceptate de părţi”.
6
Analitica Afacerilor, 14 mai 2016
Contexte de confidențialitate
Există 4 contexte pe care afacerile ar trebui să le respecte dacă sunt interesate în a
adopta practici de confidenţialitate mai bune:
- contextul temporal: toate datele colectate şi folosite trebuie să aibă o limită de
timp specifică, agreată şi de consumator;
- contextul locaţional/spațial: locaţiile în care consumatorii cumpără şi de unde
doresc să obţină oferte sau servicii trebuie stabilite de comun acord, specificate şi
respectate;
- contextul utilizării datelor: datele trebuie folosite în afacere numai pentru
scopurile menţionate în acordul cu clientul;
- contextul dimensional: în contextul prezent al exprimării părerilor şi
experienţelor personale, consumatorii ar dori să împărtăşească diferite niveluri ale datelor
lor, depinzând de gradul lor de implicare în media socială.
Ierarhizarea confidențialității
Există 3 tipuri distincte de confidenţialitate:
1) Access privacy: Confidenţialitatea accesului: consumatorii au dreptul să
controleze pe cine să contacteze sau să fie contactați, cum, când, unde şi prin intermediul
cărui canal;
2) Identity privacy: Confidenţialitatea identităţii: consumatorii au dreptul să nu îşi
dezvăluie identitatea anumitor entităţi de afaceri, indiferent de scopul pentru care au fost
solicitate datele. Datele personale identificabile sunt formate din:
- orice informaţie care poate fi utilizată pentru a distinge sau recunoaşte
identitatea individuală: nume, CNP, data şi locul naşterii, numele mamei, înregistrări
biometrice;
- orice altă informaţie ce este legată sau poate fi corelată cu un individ: informaţii
medicale, financiare, despre educaţie sau angajare.
3) Pooling privacy: Confidenţialitate în gruparea caracteristicilor
consumatorilor: consumatorii au dreptul de a păstra anumite date personale secrete,
atunci când sunt cerute pentru a grupa consumatorii în scopuri de BA. Gruparea
consumatorilor trebuie să fie făcută strict pentru a determina trăsături şi valori comune,
preferinţe ale grupurilor de consumatori, fără a le cunoaşte identităţile. Scopul final al
afacerii fiind să aloce produsele şi serviciile potrivite pentru anumiţi consumatori, la
timpul, locul şi preţul potrivite. Economiile de cost şi valoarea creată astfel sunt apoi
împărtășite între afacere şi consumatori.
Gradul de afectare (intruziune) a confidenţialităţii este astfel: pooling privacy este
minimal, acces privacy este la cel mai înalt nivel. Deoarece nu există o definiţie clară a
confidenţialităţii pentru consumatori, orice pierdere a acesteia implică pierderea celor trei
tipuri prezentate anterior:
- lumea va şti cine eşti (identity privacy);
7
Analitica Afacerilor, 14 mai 2016
Soluție propusă:
Cei mai mulţi dintre consumatori vor permite ca datele lor personale să fie
distribuite şi utilizate dacă sunt gândite şi aplicate măsuri de protecţie şi incitaţii
corespunzătoare. Măsuri de protecţie sugerate: 1) nicio PII nu este înregistrată, nicio dată
nu poate fi folosită pentru a „merge înapoi/identifica” la consumator; 2) orice trăsături
determinate în analiză nu violează legile statului (de ex., discriminare rasială, sexuală sau
de vârstă); 3) valorile create trebuie împărţite cu acei consumatori care au pus la
dispoziţie datele; 4) consumatorii să poată da permisiuni suplimentare de dezvăluire a
identităţilor şi/sau să permită accesul la date.
Există mai mulţi paşi pentru atingerea acestui obiectiv (guvernanţa datelor):
1) Elaborarea unui consiliu care să se ocupe de guvernanţa datelor, să se asigure că toate
aspectele afacerii sunt încorporate corect în documentele oficiale privind guvernanţa
datelor; cele mai importante părţi ale afacerii trebuie reprezentate în consiliu (lideri cheie
din IT, marketing, vânzări, BA, juridic);
- consiliul să fie condus de cineva cu abilitatea de a obţine un consens în cadrul
şedinţelor, care are acces direct la consiliul de administraţie şi poate fi făcut responsabil
pentru acţiunile şi progresul consiliului;
2) Evaluarea situaţiei: este importantă evidenţierea situaţiei existente în termeni ai
practicilor curente şi apoi evidenţierea potenţialelor arii de risc, oportunităţi şi
îmbunătăţiri necesare. Trebuie elaborate planuri strategice pentru a duce afacerea în
situaţia dorită.
3) Dezvoltarea unei strategii de guvernanţă a datelor; o strategie efectivă urmează
următoarele subetape:
- definirea misiunii (de ce este necesară guvernanţa datelor);
- stabilirea ariilor de interes (determinarea scopurilor, metricilor şi măsurilor de
succes, asigurarea finanţării);
- formalizarea regulilor şi definiţiilor (asigurarea clarităţii şi alinierea la
standarde);
8
Analitica Afacerilor, 14 mai 2016
9
Analitica Afacerilor, 14 mai 2016
consumatorilor, dar nu poate indica efecte cauzale, pentru care sunt necesare modele
analitice; rezultatele modelelor trebuie mai întâi testate/verificate. Este important de
determinat cauzalitatea pentru că în acest fel sunt identificaţi factorii ce pot fi folosiţi
pentru a obţine modificările dorite. Este de asemenea important să ne asigurăm că
veniturile suplimentare obţinute sunt suficiente pentru a acoperi costurile identificării
acelor factori şi utilizării acestora.
10
Analitica Afacerilor, 14 mai 2016
Normalizarea datelor
În multe modele, domeniile variabilelor independente sunt foarte variate, iar
anumiţi algoritmi impun ca variabilele să fie de dimensiuni similare (de ex, în
clusterizare). În clusterizare, trebuie definită o măsură distanţă şi de aceea, fără
standardizare, o modificare procentuală mică într-o variabilă cu amplitudine mare va avea
un impact mai mare asupra rezultatelor clusterizării decât variabilele cu au domenii mai
înguste, dar care ar putea avea relevanţă mai mare. Două metode de normalizare sunt
utilizate mai des:
- normalizare prin domeniul absolut (max-min);
- normalizare prin abaterea standard (Z normalizare).
Partiționarea datelor
Ca parte a procesului de modelare supervizată, este o practică obişnuită divizarea
setului de date în 2 sau 3 subseturi, cunoscute ca partiţii. Prima partiţie este numită
partiţie de antrenare şi este utilizată pentru a formula şi rula modelul. A doua partiţie –
partiţia pentru validare – este folosită pentru a valida modelul, fără ajustări ulterioare.
Uneori, cea de a doua partiţie este folosită pentru a alege cea mai bună combinaţie de
parametri ai modelului (de ex, nr. de clustere) sau cel mai bun model dintre cele
potenţiale. În acest caz, o a treia partiţie, numită partiţie de testare, este folosită pentru a
testa cel mai bun model generat de primele două partiţii, fără modificări ulterioare.
11
Analitica Afacerilor, 14 mai 2016
12
Analitica Afacerilor, 14 mai 2016
13
Analitica Afacerilor, 14 mai 2016
luni); putem adăuga targeturile de vânzări pe acelaşi grafic pentru a vedea dacă au fost
îndeplinite sau nu;
- hărţi geografice: posibilitatea de a reprezenta toate celelalte tipuri de
grafice suprapuse peste o hartă geografică;
- heat maps: folosind culori şi dimensiuni, se pot compara valori ale unor
variabile;
- tree maps: folosite atunci când parametrii sunt prea mulţi (>10), a.î. nu
pot fi utilizate barele;
- histograme: folosite pentru a evidenţia diviziuni ale unei variabile
continue în valori discrete;
- diagrame Gantt: folosite pentru a evidenţia durata fiecărei activităţi.
- reprezentări multichart: abilitatea de a analiza datele simultan din mai multe
perspective pentru a detecta dependenţe, factori cauzali; apoi, o dată construite, aceste
reprezentări pot fi folosite într-un dashboard ce permite analistului să lucreze interactiv;
- uşurinţă în utilizare şi viteză mare de lucru: pentru a ne asigura că instrumentul
va fi adoptat de toţi cei implicaţi, trebuie să fie uşor de învăţat şi intuitiv în
funcţionalitatea lui, trebuie să rezolve sarcinile rapid (secunde mai degrabă decât minute).
14