Documente Academic
Documente Profesional
Documente Cultură
Student:
Ronu Claudiu Mihai
BUCURETI
2017
De fiecare dat cnd cantitatea de date se mrete de zece ori, ar trebui s regndim
complet modul n care o analizm
Chuck Dickens, fost director de tehnic de calcul SLAC
Coninut
Introducere ................................................................................................................................. 3
Concluzii .................................................................................................................................. 11
Referine ................................................................................................................................... 12
2
Introducere
n cea de-a doua jumtate a secolului al XVII-lea, n urma unei serii de conflicte
sngeroase prelungite, conductorii europeni au adoptat o nou perspectiv de guvernare, una
bazat pe trenduri demografice. Utiliznd msurtori standardizate i tehnici matematice
pentru a estima modificri n dinamica populaiei, pionieri demografici, cum ar fi William
Petty i John Graunt, s-au gsit contractai de conductori precum Oliver Cromwell i Charles
al II-lea. Iniial a existat un singur client pentru acest tip de expertiz, iar indiciul se gseste
n cuvntul "STATistic". Numai statele naionale centralizate aveau capacitatea de a colecta
datele din rndul populaiilor mari ntr-un mod standardizat i doar statele aveau nevoie de
astfel de date.
3
economice i politice ale extragerii de cunotine prin intermediul procesrii de micro-date
sunt expuse pentru a oferi o nelegere ct mai robust a fenomenelor expuse.
O procedur statistic standard implic testarea relaiei dintre dou seturi de date
statistice sau dintre un set de date i date sintetice extrase din modelul idealizat. O ipotez
este propus pentru relaia statistic dintre cele dou seturi de date i aceasta este comparat
drept alternativ la o ipotez nul ce presupune lipsa existenei unei relaii ntre cele dou
4
seturi de date. Respingerea ipotezei nule se face folosind teste statistice care cuantific sensul
n care nulul poate fi dovedit fals, avnd n vedere datele utilizate n test.
Pe termen lung, implicaiile acestui fapt vor fi, probabil, la fel de profunde precum
inventarea statisticilor la sfritul secolului al XVII-lea. Ascensiunea Data Mining
coroborat cu Big Data ofer oportuniti de analiz cantitativ mult mai variate dect orice
volum de eantion sau modelare statistic. (Tuffrey, 2011) afirm c Data Mining reprezint
aplicarea metodelor statistice de analiz de date mpreuna cu tehnici de management al
bazelor de date, vizualizare i machine learning n explorarea i analiza seturilor mari de
date, cu scopul de a extrage informaii noi i utile proprietarului acestor date. Nu doar
cantitatea datelor este diferit, ci se contureaz un tip nou de cunotine, nsoit de un nou
model de interpretare.
n primul rnd, nu exist nici o scar fix de analiz (cum ar fi o ar) i nici o
categorie standard (cum ar fi "omerii"). Aceste seturi de date noi pot fi minate n cutare de
modele, tendine, corelaii i sentimente emergente. Devine mai degrab o modalitate de
urmrire a identitilor pe care oamenii i le acord lor nii (cum ar fi "#rezist" sau
"antreprenor"), n loc s li se impun clasificri. Aceasta este o form de agregare potrivit
pentru o epoc cultural-politic mai fluid, n care nu totul poate fi referit n mod credibil la
un anumit ideal iluminist al statului-naiune ca o mas uniform.
5
analizate cu o vitez i sensibilitate fr precedent - dar nu exist nimic care ancoreaz
aceast nou capacitate n interesul public sau n dezbaterea public. Exist analiti de date
care lucreaz pentru Google i Facebook, dar care nu sunt "experi" in sensul celor care
genereaz statistici accesibile publicului larg. Anonimatul i secretul noilor analiti i pot face
mult mai puternici din punct de vedere social, economic i politic dect orice om de tiin
social.
Tehnici de analiz
6
informaii coninute i o viteza de colectare accelerat. Aceste tehnici i tehnologii se bazeaz
pe multiple domenii, inclusiv statistic, informatic i matematic aplicat. Unele tehnici i
tehnologii au fost dezvoltate ntr-un context n care accesul era posibil numai pentru volume
i varieti de date reduse ele fiind ns adaptate cu succes, astfel nct s fie aplicabile unor
seturi foarte mari de date, categoric mai diversificate. Altele au fost dezvoltate mai recent, n
special pentru a capta valoare din Big Data. Aceast variabilitate a tehnicilor de analiz
cantitativ presupune adoptarea unei abordri flexibile, multidisciplinare n nelegerea
fenomenelor portretizate n seturile de date i astfel, o revizuire a celor mai populare metode
se impune. Brown, Chui & Manyika au ntreprins acest demers n raportul McKinsey intitulat
Are you ready for the era of big data (2011), acetia considernd relevante urmtoarele
tehnici:
Reguli de asociere. Aceste tehnici constau ntr-o varietate de algoritmi care genereaz
i testeaz posibile reguli ce definesc o relaie ntre variabile. O aplicaie este analiza coului
de pia, n care un comerciant poate stabili ce produse sunt cumprate frecvent mpreun i
folosi aceste informaii pentru n scopuri promoionale (un exemplu frecvent citat este
descoperirea c muli cumprtori din supermarket care cumpr scutece tind s cumpere de
asemenea i bere).
7
Clusterizarea. O metod statistic pentru clasificarea obiectelor care mparte un grup
n grupuri mai mici de observaii similare, ale cror caracteristici de similitudine nu sunt
cunoscute n prealabil. Un exemplu de analiz cluster este segmentarea consumatorilor n
grupuri auto-similare pentru marketingul orientat. Acesta este un tip de nvare
nesupravegheat, deoarece datele de antrenament nu sunt utilizate.
8
Bune practici
(Leek1, 2014) evideniaz o serie de posibile neajunsuri atunci cand accentul unei
analize cantitative este plasat n totalitate pe tehnici de analiz dezvoltate pentru interpretarea
Big Data dar care nu au la baz sau mcar mprumut din ideologia statistic. Astfel, intr-o
lucrare ulterioar, (Leek2, 2014) urmrete ntmpinarea acestor lacune prin conturarea unor
principii de bune practici n simbioza dintre statistic i data mining.
9
nainte de a analiza un set de date, acesta ar trebui reprezentat grafic. O eroare
frecvent n rndul analitilor este de a ncerca s muleze un model prin cele mai sofisticate
intrumente de calcul nainte de a vizualiza datele. Figura 1 reprezint un exemplu ideal n
acest sens: cvartetul lui Anscombe prezint graficele a patru seturi de date ce manifest
statistici descriptive aproape identice ins difer n distribuie.
Nu n ultimul rnd, poate cea mai distinct recomandare este aceea de a stabili de la
nceput problema iar abia apoi s fie adaptate intrumentele, n nici un ca n mod invers. Una
dintre tentaiile cele mai mari este de a aplica o tehnic pe care autorul o stpnete foarte
bine (ex. regresia) pentru toate tipurile de cercetri. n mod asemntor, exist tentaia de a
deveni fixat pe un anumit packet software de analiz, ncercnd realizarea analizei prin
intermediul acestuia, chiar i atunci cnd poate existau alternative mai rapide sau mai uor de
utilizat.
10
Concluzii
n acest nou climat tehnic, economic i politic, pare c ne vom baza pe noua elit
digital s identifice faptele, proieciile i adevrul pe baza fluxului de date care rezult. Dac
indicatori precum PIB-ul i omajul continu s aib o influen, acest lucru rmne s fie
vzut nsa dac scenariul se adeverete in sens negativ acest lucru ar putea anuna atrofierea
capacitilor statelor de a furniza informaii de interes public. ntrebarea care trebuie luat
mai n serios, acum c datele sunt generate constant pentru orice aciune i dincolo de
cunotinele noastre, este unde se va situa un sistem democratic dup rezolvarea crizei
statisticii.
Organisme, cum ar fi Institutul pentru Date Deschise (Open Data Institute), susin
iniiativa de a pune datele la dispoziia publicului, ns au puin influen asupra
corporaiilor n care se acumuleaz un volum considerabil de informaii. Statistica i-a
nceput existena ca i un instrument prin care statul putea s observe societatea, dar s-a
dezvoltat treptat n ceva n care academicienii, reformatori civili i ntreprinderile au o
participaie. ns pentru multe firme de analiz a datelor, secretul metodelor i surselor de
date sunt un avantaj competitiv la care nu vor renuna n mod voluntar.
11
raionamentului i cunoaterii publice i care profit din dezintegrarea continu a acestor
lucruri.
Referine
1. Anscombe, Francis J. (1973) Graphs in statistical analysis. American Statistician, 27,
1721
2. Brown, B., Chui, M., & Manyika, J. (2011). Are you ready for the era of big
data. McKinsey Quarterly, 4(1), 24-35.
3. Davis, W. (2017). How statistics lost their power and why we should fear what
comes next. The Guardian. Accesat 10 mai 2017, la
https://www.theguardian.com/politics/2017/jan/19/crisis-of-statistics-big-data-
democracy?CMP=fb_gu
4. Dodge, Y. (2006) The Oxford Dictionary of Statistical Terms, OUP.
5. Friedman, J. H. (1998). Data mining and statistics: What's the
connection?. Computing Science and Statistics, 29(1), 3-9.
6. Leek1, J. (2014). 10 things statistics taught us about big data analysis. Accesat 13 mai
2017, la https://simplystatistics.org/2014/05/22/10-things-statistics-taught-us-about-
big-data-analysis/
7. Leek2, J. (2014). Why big data is in trouble: they forgot about applied statistics.
Accesat 14 mai 2017, la https://simplystatistics.org/2014/05/07/why-big-data-is-in-
trouble-they-forgot-about-applied-statistics/
8. Lund, A., & Lund, M. (2013). Descriptive and Inferential Statistics. Accesat 15 mai
2017, la https://statistics.laerd.com/statistical-guides/descriptive-inferential-
statistics.php
9. Pierson, S. (2012). Big Data and the Role of Statistics. Accesat 14 mai 2017, la
http://community.amstat.org/browse/blogs/blogviewer?BlogKey=737fd276-0225-
4c87-b7cb-0cfc7cd9e124
10. Tuffery, S. (2011). Data Mining and Statistics for Decision Making (1st ed.). Wiley.
11. Wu, X., Zhu, X., Wu, G. Q., & Ding, W. (2014). Data mining with big data. ieee
transactions on knowledge and data engineering, 26(1), 97-107.
12