BIG DATA permite organizatiilor un amestec de date structurate, semi-structurate
si nestructurate n cutare de informaii i perspective de afaceri valoros. BIG DATA sunt folosite pentru a descoperi modele ascunse, corelaii necunoscute, tendinele pieei, preferinele clienilor i alte informaii utile afaceri. Constatarile analitice pot duce la comercializare mai eficiente, noi oportuniti de venituri, servicii mai bune clienilor, eficien operaional mbuntit, avantaje competitive peste organizaii rivale i alte beneficii de afaceri. Scopul principal al analizei BIG DATA este de a ajuta companiile s ia decizii de business mai informate, permind oamenilor de stiinta de date, i ali profesioniti de analiz de a analiza volume mari de date de tranzacie, precum i alte forme de date care pot fi neexploatate de business intelligence (BI). Asta ar putea include jurnale de server Web i date clickstream Internet, coninut social media i rapoarte de activitate, reele sociale, textul de la e-mailuri de la clieni i rspunsuri sondaj, de telefonie mobil nregistrri ale detaliilor apelurilor i a datelor de maini capturate de senzori conectai la internetul obiectelor. Unii oameni asociaza BIG DATA cu date semi-structurate i nestructurate de acest gen, dar firme de consultan, precum Gartner Inc. i Forrester Research Inc. lua n considerare, de asemenea, tranzaciile i alte date structurate a fi componente valide in aplicatiile BIG DATA. BIG DATA pot fi analizate cu instrumente software utilizate n mod obinuit, ca parte a analizei a unei discipline avansate, cum ar fi analiza predictiva, data mining, analiz de text i analiza statistic. Mainstream BI instrumente de software i date de vizualizare poate juca, de asemenea, un rol n procesul de analiz. Dar datele semi-structurate i nestructurate ar putea s nu se potriveasc bine n depozitele de date tradiionale, bazate pe baze de date relaionale. Mai mult dect att, depozite de date nu pot fi n msur s se ocupe de cererile de prelucrare generate de seturi de date mari care trebuie actualizate frecvent sau chiar continuu de exemplu, date n timp real cu privire la performana de aplicaii mobile sau de conducte de petrol i gaze.
Ca urmare, multe organizaii care doresc s colecteze, prelucreaze i sa analizeaze
BIG DATA au apelat la o clas nou de tehnologii care include Hadoop i alte instrumente , cum ar fi, MapReduce, Spark, Hive, precum i baze de date NoSQL. Aceste tehnologii formeaza nucleul unui cadru software open source, care susine prelucrarea de seturi mari si diverse date peste sisteme cluster. n unele cazuri, grupurile Hadoop i sisteme de NoSQL sunt utilizate ca tampoane de aterizare i zone de ateptare pentru date nainte de a se ncarc ntr-un depozit de date pentru analiza, de multe ori ntr-o form cuprinsa c este mai favorabil pentru structurile relaionale. n astfel de arhitecturi, subseturi de date pot fi apoi filtrate de analiza n depozitele de date i baze de date analitice, sau poate fi analizat direct n Hadoop folosind instrumente de interogare lot, software de procesare flux i SQL pe tehnologii Hadoop care se execut interactiv, interogrile ad-hoc scris n SQL. Capcanele poteniale care pot impiedica unele organizaii pe marile iniiative de analiz de date includ lipsa de competene de analiz interne i costul ridicat al nchirierii de profesioniti cu experien de analiz. Cantitatea de informaii care este implicata n mod obinuit, iar varietatea ei, poate provoca, de asemenea dureri de cap de gestionare a datelor, inclusiv calitatea datelor i probleme de consisten. n plus, integrarea sistemelor Hadoop i depozite de date poate fi o provocare, dei diferiti vnztori ofer acum conectori software ntre Hadoop i baze de date relationale, precum i alte date instrumente de integrare cu capaciti mari de date. Big Data are 4 caracteristici principale. 1. Prima caracteristic este VOLUMUL Da, volumul de date este in crestere. Expertii prezic ca volumul de date din lume, va creste la 25 de Zettabytes n 2020. Acelasi fenomen afecteaza fiecare companie - datele sunt in cretere la aceeasi rata exponeniala. Dar nu este numai volumul de date care este in crestere, numrul de surse de date este de asemenea in crestere. 2. A doua caracteristica este VITEZA. Datele se creeaza la viteze din ce in ce mai mari. Companiile isi muta aplicatiile de la aplicatii de tip "batch" la aplicatii in timp real. i cerintele de afaceri au crescut la fel - de la rspunsuri sptmna viitoare sau maine la un rspuns ntr-un minut
sau la secund. i lumea este, de asemenea, din ce n ce mai instrumentat i
interconectat. Volumul de date de streaming de pe aceste instrumente este exponenial mai mare dect a fost chiar cu 2 ani n urm. 3. A treia caracteristica este VARIETATEA datelor. Varietatea datelor prezint o provocare la fel de dificil. Creterea surselor de date a alimentat i creterea tipurilor de date. De fapt, 80% din datele generate n lume sunt date nestructurate. Cu toate acestea, metodele tradiionale de analiz se aplic numai la informaii structurate. 4. A patra caracteristica este VERIDICITATEA datelor Cum se poate actiona pe baza acestor informatii, dac nu sunt de incredere. Stabilirea increderii in datele pe care le folosete orice companie reprezint o provocare uria odat cu cresterea surselor i tipurilor de date. Un alt motiv pentru care Big Data este un subiect fierbinte astazi este noua tehnologie care permite unei organizaii s beneficieze de resursele interne de date. Ceea ce este nou, este tehnologia pentru a procesa si analiza aceste date la volumul si viteza dorita. Scopul tehnologiei Big Data este sa analizeze toate datele disponibile, eficient din punct de vedere costuri. Datele pot veni de la sistemele noastre tradiionale - sisteme de facturare, sisteme ERP si sisteme CRM. De asemenea pot veni de la maini - de la etichetele RFID, senzori si comutatoare de reea. i datele vin de la oameni - site-ul web, social media, etc. Acest lucru face foarte dificil analiza datelor sociale - extragerea ideilor de coninut n mare parte sub form de text ntr-un timp foarte scurt.