Sunteți pe pagina 1din 12

ACADEMIA DE STUDII ECONOMICE DIN BUCURETI

FACULTATEA DE CIBERNETIC, STATISTIC I INFORMATIC ECONOMIC

Statistica n contextul Data Mining

Student:
Ronu Claudiu Mihai

BUCURETI
2017
De fiecare dat cnd cantitatea de date se mrete de zece ori, ar trebui s regndim
complet modul n care o analizm
Chuck Dickens, fost director de tehnic de calcul SLAC

Cei care ignor statistica sunt condamnai s o reinventeze


Brad Efron, creatorul metodei bootstrap

Coninut

Introducere ................................................................................................................................. 3

Statistic vs Data Mining ........................................................................................................... 4

Tehnici de analiz ...................................................................................................................... 6

Bune practici .............................................................................................................................. 9

Concluzii .................................................................................................................................. 11

Referine ................................................................................................................................... 12

2
Introducere

n cea de-a doua jumtate a secolului al XVII-lea, n urma unei serii de conflicte
sngeroase prelungite, conductorii europeni au adoptat o nou perspectiv de guvernare, una
bazat pe trenduri demografice. Utiliznd msurtori standardizate i tehnici matematice
pentru a estima modificri n dinamica populaiei, pionieri demografici, cum ar fi William
Petty i John Graunt, s-au gsit contractai de conductori precum Oliver Cromwell i Charles
al II-lea. Iniial a existat un singur client pentru acest tip de expertiz, iar indiciul se gseste
n cuvntul "STATistic". Numai statele naionale centralizate aveau capacitatea de a colecta
datele din rndul populaiilor mari ntr-un mod standardizat i doar statele aveau nevoie de
astfel de date.

Timp de aproximativ 450 de ani, marea realizare a statisticienilor a fost aceea de a


reduce complexitatea i fluiditatea populaiilor naionale n fapte i cifre inteliginile i uor de
gestionat. O nou paradigm, nscut din prevalena mijloacelor tehnologice la nivelul
populaiei, pune ntr-o lumin incomod astfel de tehnici de agregare a informaiei prin
utilizarea din ce n ce mai frecvent a aa numitelor tehnici de data mining. Datele, prin
volumul lor, au devenit un torent de nestvilit ce inund fiecare zon a economiei globale.
Companiile genereaz un volum tot mai mare de date tranzacionale, capturnd trilioane de
octei de informaii despre clieni, furnizori i operaiuni. Milioane de senzori de reea sunt
incorporai n lumea fizic n dispozitive precum telefoanele mobile, contoarele de energie
inteligene, automobilele i mainile industriale care percep, creeaz i comunic date din era
Internet of Things (IoT). ntr-adevr, organizaiile i desfsoar activitatea, interactioneaz
cu indivizii i genereaz o cantitate extraordinar de "date de evacuare" (date care sunt create
c un produs secundar al altor activitti). Reelele sociale, smartphone-urile i alte dispozitive
de consum, inclusiv calculatoarele i laptopurile, au permis ca miliarde de indivizi din
ntreaga lume s contribuie la cantitatea de date importante disponibile. Volumul tot mai
mare de coninut a creat astfel conceptul de Big Data.

Acest eseu i propune s ofere o nelegere a evoluiei tehnicilor de analiz


cantitativ, tratnd metamofoza acestora de la testele de semnificaie i metodele de
eantionare la includerea de arbori de decizie i reele neurale, tehnici ce sunt proiectate s
funcioneze numai n prezena unui volum considerabil de date, spre deosebire de primele.
Problematicile ridicate de astfel de schimbri sunt tratate, mpreun cu cele mai bune practici
n utilizarea noilor metode i integrarea celor consacrate. n final, implicaiile sociale,

3
economice i politice ale extragerii de cunotine prin intermediul procesrii de micro-date
sunt expuse pentru a oferi o nelegere ct mai robust a fenomenelor expuse.

Statistic vs Data Mining

Statistica reprezint o ramur a matematicii care se ocup de colectarea, analiza,


interpretarea, prezentarea i organizarea datelor (Dodge, 2006). Atunci cnd o analiz
statistic urmeaz s fie aplicat, este convenional s se nceap pornind de la o o populaie
statistic sau de la model statistic care trebuie studiat.

Atunci cnd datele de recensmnt nu pot fi colectate, statisticienii colecteaz date


prin dezvoltarea unor modele experimentale specifice i a eantioanelor de sondaj.
Eantionarea reprezentativ asigur faptul c concluziile i concluziile se pot extinde n
siguran din eantion la populaie, n ansamblul ei. Un studiu experimental presupune
efectuarea msurrilor sistemului studiat, manipularea sistemului i apoi efectuarea de
msurtori suplimentare utiliznd aceeai procedur pentru a determina dac manipularea a
modificat valorile msurtorilor. n schimb, un studiu observaional nu implic manipularea
experimental.

n analiza datelor se folosesc dou metode statistice principale: statistici descriptive


care sintetizeaz date dintr-un eantion utiliznd indici precum deviaia medie sau standard i
statisticile infereniale care extrag concluzii din date dar fac obiectul unor variaii aleatorii (de
exemplu, erori de observaie, variaia eantionrii) (Lund & Lund, 2013). Statisticile
descriptive se refer cel mai des la dou seturi de proprieti ale unei distribuii (eantion sau
populaie): tendina central urmrete s caracterizeze valoarea central sau tipic a
distribuiei, n timp ce dispersia (sau variabilitatea) caracterizeaz msura n care membrii
distribuiei se ndeprteaz de la centru i unul de cellalt. Inferenele privind statisticile
matematice se fac n cadrul teoriei probabilitii, care se ocup de analiza fenomenelor
aleatorii.

O procedur statistic standard implic testarea relaiei dintre dou seturi de date
statistice sau dintre un set de date i date sintetice extrase din modelul idealizat. O ipotez
este propus pentru relaia statistic dintre cele dou seturi de date i aceasta este comparat
drept alternativ la o ipotez nul ce presupune lipsa existenei unei relaii ntre cele dou

4
seturi de date. Respingerea ipotezei nule se face folosind teste statistice care cuantific sensul
n care nulul poate fi dovedit fals, avnd n vedere datele utilizate n test.

Recent, un nou mod de cuantificare i vizualizare a populaiilor a luat natere, unul


care poate mpinge statistica clasic spre margini, introducnd astfel o nou epoc.
Statisticile, colectate i compilate de experi tehnici, fac loc datelor ce se acumuleaz de la
sine, ca i o consecin direct a digitizrii accelerate. In mod tradiional, statisticienii tiau ce
ntrebri trebuiau s pun despre ce populaie i apoi s ncerce s formuleze un rspuns. Prin
contrast, datele se produc automat ori de cte ori pltim cu cardul, comentm pe Facebook
sau cutm pe Google. Pe msur ce oraele, autoturismele, locuinele i obiectele de uz
casnic se conecteaz digital, cantitatea de date pe care o lsm n urma noastr va crete i
mai mult. Sub aceast nou paradigm, datele sunt captate nti i ntrebrile de cercetare vin
dup (Davis, 2017).

Pe termen lung, implicaiile acestui fapt vor fi, probabil, la fel de profunde precum
inventarea statisticilor la sfritul secolului al XVII-lea. Ascensiunea Data Mining
coroborat cu Big Data ofer oportuniti de analiz cantitativ mult mai variate dect orice
volum de eantion sau modelare statistic. (Tuffrey, 2011) afirm c Data Mining reprezint
aplicarea metodelor statistice de analiz de date mpreuna cu tehnici de management al
bazelor de date, vizualizare i machine learning n explorarea i analiza seturilor mari de
date, cu scopul de a extrage informaii noi i utile proprietarului acestor date. Nu doar
cantitatea datelor este diferit, ci se contureaz un tip nou de cunotine, nsoit de un nou
model de interpretare.

n primul rnd, nu exist nici o scar fix de analiz (cum ar fi o ar) i nici o
categorie standard (cum ar fi "omerii"). Aceste seturi de date noi pot fi minate n cutare de
modele, tendine, corelaii i sentimente emergente. Devine mai degrab o modalitate de
urmrire a identitilor pe care oamenii i le acord lor nii (cum ar fi "#rezist" sau
"antreprenor"), n loc s li se impun clasificri. Aceasta este o form de agregare potrivit
pentru o epoc cultural-politic mai fluid, n care nu totul poate fi referit n mod credibil la
un anumit ideal iluminist al statului-naiune ca o mas uniform.

n al doilea rnd, majoritatea dintre noi suntem n totalitate ignorani fa de ceea ce


spun toate aceste date despre noi, fie individual, fie colectiv. Nu exist un echivalent al unui
Institut Naional de Statistic pentru date importante colectate din punct de vedere comercial.
Trim ntr-o epoc n care sentimentele, identitile i afilierile noastre pot fi urmrite i

5
analizate cu o vitez i sensibilitate fr precedent - dar nu exist nimic care ancoreaz
aceast nou capacitate n interesul public sau n dezbaterea public. Exist analiti de date
care lucreaz pentru Google i Facebook, dar care nu sunt "experi" in sensul celor care
genereaz statistici accesibile publicului larg. Anonimatul i secretul noilor analiti i pot face
mult mai puternici din punct de vedere social, economic i politic dect orice om de tiin
social.

O companie precum Facebook are capacitatea de a efectua o analiz social


cantitativ asupra a sute de milioane de oameni, la un cost minimal, dar are foarte puine
stimulente pentru a dezvlui rezultatele. n 2014, cnd cercettorii Facebook au publicat
rezultatele unui studiu privind "contagiunea emoional" pe care au efectuat-o asupra
utilizatorilor lor - n care au modificat fluxurile de tiri pentru a vedea cum a afectat
coninutul pe care utilizatorii l-au vizionat rspunsul acestora s-a produs un protest fa de
ideea c au luat parte involuntar la un experiment. Astfel, din punctul de vedere al Facebook,
care ar fi beneficiul publicrii rezultatelor studiului? Nu ar avea mai mult utilitate efectuarea
acestuia doar pentru sine?

Aceast abilitate de a dezvolta i de a perfeciona cunotine psihologice extrase din


rndul populaiilor mari este una dintre caracteristicile cele mai inovatoare i controversate
ale noilor tehnici de analiz a datelor. Intruct metode precum sentiment analysis, ce
identific starea de spirit a unui numr mare de persoane prin urmrirea unor indicatori, cum
ar fi utilizarea anumitor cuvinte pe social media, devin ncorporate n strategiile comerciale
ale companiilor, atracia emoional a unor campanii de marketing va deveni susceptibil
pentru o analiz tiinific. ntr-o lume n care preferinele publicului larg devin att de uor
de urmrit, ce utilitate mai pot prezenta sondajele?

Tehnici de analiz

(Friedman, 1998) afirm c disciplina statistic poate fi considerat un set de


instrumente n strns asociere cu metodele experimentale utilizate n orice ramur tiinific,
instrumente ce confer rezultatelor obinute o validare matematic obiectiv. De cealalt
parte, o larg varietate de tehnici i tehnologii au fost dezvoltate i adaptate n paralel fa de
principiile statistice cu scopul de a agrega, manipula, analiza i vizualiza seturi de date care
de cele mai multe ori sunt caracterizate de un volum considerabil, o varietate a tipurilor de

6
informaii coninute i o viteza de colectare accelerat. Aceste tehnici i tehnologii se bazeaz
pe multiple domenii, inclusiv statistic, informatic i matematic aplicat. Unele tehnici i
tehnologii au fost dezvoltate ntr-un context n care accesul era posibil numai pentru volume
i varieti de date reduse ele fiind ns adaptate cu succes, astfel nct s fie aplicabile unor
seturi foarte mari de date, categoric mai diversificate. Altele au fost dezvoltate mai recent, n
special pentru a capta valoare din Big Data. Aceast variabilitate a tehnicilor de analiz
cantitativ presupune adoptarea unei abordri flexibile, multidisciplinare n nelegerea
fenomenelor portretizate n seturile de date i astfel, o revizuire a celor mai populare metode
se impune. Brown, Chui & Manyika au ntreprins acest demers n raportul McKinsey intitulat
Are you ready for the era of big data (2011), acetia considernd relevante urmtoarele
tehnici:

Testul A/B. O tehnic n care un grup de control este comparat cu o varietate de


grupuri de test pentru a determina ce tratamente vor mbunti o variabil obiectiv dat, de
exemplu, rata de rspuns la o campanie de marketing. O aplicaie exemplu este determinarea
a ce tip de text, layout-uri, imagini sau culori vor mbunti ratele de conversie pe un site
web de e-commerce. Big data permite efectuarea i analizarea unui numr considerabil de
teste, asigurndu-se c grupurile au dimensiuni suficiente pentru a detecta diferene
semnificative din punct de vedere statistic ntre grupurile de control i de test. Atunci cnd
mai mult de o variabil este manipulat simultan n tratament, generalizarea multivariat a
acestei tehnici, care aplic modelarea statistic, este adesea numit "A / B / N".

Reguli de asociere. Aceste tehnici constau ntr-o varietate de algoritmi care genereaz
i testeaz posibile reguli ce definesc o relaie ntre variabile. O aplicaie este analiza coului
de pia, n care un comerciant poate stabili ce produse sunt cumprate frecvent mpreun i
folosi aceste informaii pentru n scopuri promoionale (un exemplu frecvent citat este
descoperirea c muli cumprtori din supermarket care cumpr scutece tind s cumpere de
asemenea i bere).

Clasificare. Un set de tehnici pentru a identifica categoriile n care noi observaii se


ncadreaz, pe baza unui set de antrenament care conine date care au fost deja clasificate. O
aplicaie este reprezentat de prezicerea comportamentului clientului tipic fiecrui segment
(de exemplu, deciziile de cumprare, rata consumului, rata de consum) n cazul n care exist
o ipotez clar sau un rezultat obiectiv. Aceste tehnici sunt deseori descrise ca aparinnd
categoriei de metode de nvare supravegheat datorit existenei unui set de antrenament.

7
Clusterizarea. O metod statistic pentru clasificarea obiectelor care mparte un grup
n grupuri mai mici de observaii similare, ale cror caracteristici de similitudine nu sunt
cunoscute n prealabil. Un exemplu de analiz cluster este segmentarea consumatorilor n
grupuri auto-similare pentru marketingul orientat. Acesta este un tip de nvare
nesupravegheat, deoarece datele de antrenament nu sunt utilizate.

nvare de ansamblu (en. ensemble learning). Utilizarea mai multor modele


predictive (fiecare dezvoltat folosind statistic i / sau machine learning) pentru a obine o
performan predictiv mai bun dect ar putea fi obinut de la oricare dintre modelele
constitutive.

Algoritmi genetici. O tehnic folosit pentru optimizare ce este inspirat de procesul


evoluiei naturale sau de "supravieuirea celui mai puternic". n aceast tehnic, soluiile
poteniale sunt codificate drept "cromozomi" care se pot combina i muta. Aceti cromozomi
individuali sunt selectai pentru supravieuire n cadrul unui "mediu" modelat care determin
aptitudinea sau performana fiecrui individ n cadrul populaiei. Deseori descrii ca un tip de
"algoritm evolutiv", aceti algoritmi sunt foarte potrivii pentru rezolvarea problemelor
nonliniare. Exemple de aplicaii includ mbuntirea programrii locurilor de munc n
procesul de fabricaie i optimizarea performanei unui portofoliu de investiii.

Reele neuronale. Modelele computaionale, inspirate de structura i funcionarea


reelelor neuronale biologice (neuronii i sinapsele din interiorul creierului), care gsesc
tipare n date. Reelele neuronale sunt potrivite pentru a gsi modele nonliniare. Acestea pot
fi folosite pentru recunoaterea i optimizarea altor modele. Unele aplicaii din reeaua
neural implic nvarea supravegheat, iar altele implic nvarea nesupravegheat.
Exemple de aplicaii includ identificarea clienilor cu valoare ridicat care risc s prseasc
o anumit companie i identificarea creanelor frauduloase.

Regresie. Un set de tehnici statistice pentru a determina modul n care valoarea


variabilei dependente se modific atunci cnd una sau mai multe variabile independente sunt
modificate. Adesea folosite pentru prognoz sau predicie. Exemplele de aplicaii includ
prognozarea volumelor de vnzri pe baza diferitelor variabile economice i de pia sau
determinarea parametrilor de fabricaie msurabili care influeneaz cel mai mult satisfacia
clienilor.

8
Bune practici

(Leek1, 2014) evideniaz o serie de posibile neajunsuri atunci cand accentul unei
analize cantitative este plasat n totalitate pe tehnici de analiz dezvoltate pentru interpretarea
Big Data dar care nu au la baz sau mcar mprumut din ideologia statistic. Astfel, intr-o
lucrare ulterioar, (Leek2, 2014) urmrete ntmpinarea acestor lacune prin conturarea unor
principii de bune practici n simbioza dintre statistic i data mining.

Pe baza observaiilor realizate n urma competiiilor de analiz cantitativ (Kaggle, un


portal ce reunete profesioniti in analiza datelor, organizeaz frecvent astfel de iniiative), o
prim recomandare este ca n cazul n care obiectivul este precizia prediciei, agregarea de
multiple modele ofer cele mai bune rezultate. Principiul se dovedete valabil ntruct
includerea mai multor algoritmi predictivi reduce variabilitatea fr a devia de la descoperirea
realizat. Una dintre cele mai timpurii utilizri ale acestui principiu are la baz introducerea
metodei de bootstrapping. Aa numitele pduri aleatoare (en. random forests), reprezint un
exemplu de succes modern al nvrii de ansamblu.

Cunoaterea dimensiunii reale a eantionului constituie o alt recomandare ce merit


luat n considerare. Un exemplu relevant ar fi urmtorul: n genomic, numrul de
msurtori efectuate (principalul determinant al mrimii setului de date) nu reprezint
dimensiunea eantionului ci numrul de indivizi. In mod similar, in cadrul reelelor sociale,
numrul de utilizatori ar putea s nu reprezinte dimensiunea corect a populaiei. Deoarece nu
numai mrimea eantionului determin calitatea rezultatelor dar i modul de selecie a
acestuia, utilizarea procedeelor aleatoare de selecie reduce considerabil apariia factorilor
de confuzie (variabile ce sunt corelate direct sau invers att cu variabila dependent ct i cu
cea independent). Acesta este unul dintre motivele pentru care studiile nutriionale sunt
dificil de realizat: este deosebit de complicat s i supui pe oameni unei diete aleatoare i
indivizii care mnnc sntos pot diferi de cei ce nu o fac in moduri greu de anticipat. De
aceea, legat de recomandarea anterioar este cea de a corecta pentru multiple teste atunci
cnd sunt testate mai multe ipoteze. Majoritatea testelor clasice sunt realizate n aa fel nct
s numeasc un rezultat ca fiind semnificativ n 5% din cazuri, chiar i atunci cnd ipoteza
nul este cea adevrat. O alegere comun este corectarea pentru teste multiple utiliznd rata
descoperirilor false pentru a controla rata la care rezultatele semnificative sunt de fapt false.

9
nainte de a analiza un set de date, acesta ar trebui reprezentat grafic. O eroare
frecvent n rndul analitilor este de a ncerca s muleze un model prin cele mai sofisticate
intrumente de calcul nainte de a vizualiza datele. Figura 1 reprezint un exemplu ideal n
acest sens: cvartetul lui Anscombe prezint graficele a patru seturi de date ce manifest
statistici descriptive aproape identice ins difer n distribuie.

Figura 1. Cvartetul lui Anscombe

Sursa: Adaptare dup (Anscombe, 1973)

Nu n ultimul rnd, poate cea mai distinct recomandare este aceea de a stabili de la
nceput problema iar abia apoi s fie adaptate intrumentele, n nici un ca n mod invers. Una
dintre tentaiile cele mai mari este de a aplica o tehnic pe care autorul o stpnete foarte
bine (ex. regresia) pentru toate tipurile de cercetri. n mod asemntor, exist tentaia de a
deveni fixat pe un anumit packet software de analiz, ncercnd realizarea analizei prin
intermediul acestuia, chiar i atunci cnd poate existau alternative mai rapide sau mai uor de
utilizat.

10
Concluzii

n acest nou climat tehnic, economic i politic, pare c ne vom baza pe noua elit
digital s identifice faptele, proieciile i adevrul pe baza fluxului de date care rezult. Dac
indicatori precum PIB-ul i omajul continu s aib o influen, acest lucru rmne s fie
vzut nsa dac scenariul se adeverete in sens negativ acest lucru ar putea anuna atrofierea
capacitilor statelor de a furniza informaii de interes public. ntrebarea care trebuie luat
mai n serios, acum c datele sunt generate constant pentru orice aciune i dincolo de
cunotinele noastre, este unde se va situa un sistem democratic dup rezolvarea crizei
statisticii.

Pe de o parte, merit s recunoatem capacitatea instituiilor politice de lung durat


de a lupta. Aa cum platformele Uber i Airbnb au fost recent mpiedicate prin hotrri legale
(Uber fiind obligat s recunoasc oferii ca angajai, Airbnb fiind interzis total de unele
autoriti municipale), dreptul privat i drepturile omului reprezint un potenial obstacol n
calea extinderii analizei datelor. Ceea ce este mai puin clar este modul n care beneficiile
analizelor digitale ar putea fi oferite vreodat publicului, aa cum sunt multe seturi de date
statistice.

Organisme, cum ar fi Institutul pentru Date Deschise (Open Data Institute), susin
iniiativa de a pune datele la dispoziia publicului, ns au puin influen asupra
corporaiilor n care se acumuleaz un volum considerabil de informaii. Statistica i-a
nceput existena ca i un instrument prin care statul putea s observe societatea, dar s-a
dezvoltat treptat n ceva n care academicienii, reformatori civili i ntreprinderile au o
participaie. ns pentru multe firme de analiz a datelor, secretul metodelor i surselor de
date sunt un avantaj competitiv la care nu vor renuna n mod voluntar.

O societate post-statistic aduce o perspectiv potenial nfricotoare, nu pentru c ar


lipsi complet orice form de adevr sau de expertiz, ci pentru c ar fi privatizate drastic.
Statistica este unul dintre pilonii autentici ai liberalismului, ntr-adevr ai Iluminismului.
Experii care le produc i le folosesc au devenit portretizai ca arogani i ignorani fa de
dimensiunile emoionale i locale populaiei. Fr ndoial, exist modaliti prin care
colectarea datelor ar putea fi adaptat pentru a reflecta mai bine experienele trite. Dar
btlia care va trebui purtat pe termen lung nu este una ntre o politic elitist a faptelor
versus o politica populista de sentiment. Este vorba despre cei care nc se dedic

11
raionamentului i cunoaterii publice i care profit din dezintegrarea continu a acestor
lucruri.

Referine
1. Anscombe, Francis J. (1973) Graphs in statistical analysis. American Statistician, 27,
1721
2. Brown, B., Chui, M., & Manyika, J. (2011). Are you ready for the era of big
data. McKinsey Quarterly, 4(1), 24-35.
3. Davis, W. (2017). How statistics lost their power and why we should fear what
comes next. The Guardian. Accesat 10 mai 2017, la
https://www.theguardian.com/politics/2017/jan/19/crisis-of-statistics-big-data-
democracy?CMP=fb_gu
4. Dodge, Y. (2006) The Oxford Dictionary of Statistical Terms, OUP.
5. Friedman, J. H. (1998). Data mining and statistics: What's the
connection?. Computing Science and Statistics, 29(1), 3-9.
6. Leek1, J. (2014). 10 things statistics taught us about big data analysis. Accesat 13 mai
2017, la https://simplystatistics.org/2014/05/22/10-things-statistics-taught-us-about-
big-data-analysis/
7. Leek2, J. (2014). Why big data is in trouble: they forgot about applied statistics.
Accesat 14 mai 2017, la https://simplystatistics.org/2014/05/07/why-big-data-is-in-
trouble-they-forgot-about-applied-statistics/
8. Lund, A., & Lund, M. (2013). Descriptive and Inferential Statistics. Accesat 15 mai
2017, la https://statistics.laerd.com/statistical-guides/descriptive-inferential-
statistics.php
9. Pierson, S. (2012). Big Data and the Role of Statistics. Accesat 14 mai 2017, la
http://community.amstat.org/browse/blogs/blogviewer?BlogKey=737fd276-0225-
4c87-b7cb-0cfc7cd9e124
10. Tuffery, S. (2011). Data Mining and Statistics for Decision Making (1st ed.). Wiley.
11. Wu, X., Zhu, X., Wu, G. Q., & Ding, W. (2014). Data mining with big data. ieee
transactions on knowledge and data engineering, 26(1), 97-107.

12

S-ar putea să vă placă și