Sunteți pe pagina 1din 11

Capitolul 1

Introducere în Analiza Datelor în contextul Data Science


- Aspecte teoretice generale privind Analiza Datelor -

Prof. Dr. Stelian STANCU


1.1. Statistica

1.1.1. Definirea Statisticii

Statistica reprezintă o colecție de procedee matematice care să răspundă la cerințe


de:
- organizare a datelor;
- analiză a datelor;
- interpretare a datelor.
În analiza datelor sunt utilizate trei metode statistice principale:
- statistica descriptivă;
- statistica inferențială;
- analiza de regresie.

1.1.2. Caracterizarea Statisticii

A. Statistica descriptivă rezumă datele și se concentrează, de obicei, pe:


- distribuția datelor;
- tendința centrală a datelor;
- dispersia datelor.
Distribuția datelor poate fi o distribuție:
- normală;
- binomială;
- etc
Tendința centrală este de a descrie datele cu privire la centrarea lor. Tendința
centrală poate fi:
- media;
- mediana;
- modul.
Dispersia datelor descrie răspândirea datelor, putând fi privită ca:
- varianță;
- abatere standard;
- intervale interquartile.
A. Statistica inferențială testează relația dintre două seturi de date sau două probe
și, de obicei, este stabilită o ipoteză pentru relațiile statistice dintre ele.
Ipoteza poate fi:
- o ipoteză nulă
sau
Capitolul 1. Introducere în Analiza Datelor 10

- o ipoteză alternativă
iar respingerea ipotezei nule se face folosind teste precum Testul t, Chi Square Test
și ANOVA.
Observaţie: Testul Chi Square este mai mult pentru variabilele categoriale, iar
testul t este mai mult pentru variabilele continue. Testul ANOVA este destinat
aplicațiilor complexe.
Analiza de regresie este utilizată pentru a identifica relațiile dintre două sau mai
multe variabile.
Regresiile pot fi
- regresii liniare
sau
- regresii neliniare.
Vizualizarea datelor este tehnica folosită pentru a comunica sau prezenta date
folosind
- grafice;
- diagrame;
- tablouri de bord.

1.2. Știința datelor (Data Science)

1.2.1. Definirea științei datelor

Data Science este un domeniu multidisciplinar care include


- statistica;
- informatica;
- învățarea automată-Machine Learning;
- expertiza în domeniu;
pentru a obține cunoștințe și informații din date deja existente.
Data Science a devenit o sintagmă cheie și este folosită acum pentru a reprezenta
multe domenii precum:
- analiza datelor (Data Analytics);
- extragerea de date (Data Mining);
- extragerea de text (Text Mining);
- vizualizări de date (Data Visualizations);
- modelarea predicțiilor (Prediction Modelling);
- etc.

1.2.2. Caracterizarea științei datelor (Data Science)

Diagramă a Data Science:

 
Capitolul 1. Introducere în Analiza Datelor 11

Teoria ce Domeniul
stă la baza analizat/expertizat
Cercetarea
domeniulu statistică
i
li t Data
Science

Matematica Informatica

Machine Procesarea
Analiza de
Learning datelor
condiționalitat
e

Figura 1.1. Diagrama Data Science, în context interdisciplinar și intercauzal

1.3. Analiza datelor (Data Mining)

1.3.1. Definirea analizei datelor (Data Mining)

Analiza datelor (Data Mining)


- este strâns legată de Data Science;
- este de obicei folosită pentru a extrage pattern-uri (tipare) din datele
numerice;
- reprezintă procesul de identificare a modelelor din date folosind
o statistici;
o învățarea automată (Machine Learning);
o depozite de date (Data Warehouses);
o baze de date (Databases).

 
Capitolul 1. Introducere în Analiza Datelor 12

Stabilire obiectiv/subobiective

Înțelegerea conceptului de
afacere analizată

Cunoașterea datelor necesare


analizei

Pregătirea datelor
- eliminarea outlieri-lor;
- completarea valorilor lipsă;
- normalizarea datelor;
- standardizarea datelor;
- centrarea datelor etc

Modelarea

Evaluarea rezultatelor
posibile

Implementarea practică

Rezultate efective și comparare


cu cele estimate
 
Capitolul 1. Introducere în Analiza Datelor 13

Figura 1.2. Diagrama Data Mining inter-industrie (CRISP-DM –


Cross-industry standard process for data mining)

1.4. Analiza de text (Text Mining)

- este folosită pentru a extrage pattern-urile din date textuale (de tip text)
precum
o Twitter;
o postări pe blog;
o feedback-uri primite;
o etc.
- este cunoscută și sub denumirea de Data Mining Text.
- sarcinile de extragere a textului pot consta în
o clasificarea textului;
o gruparea (clusterizarea) textului;
o extragerea de entității;
o analitica textului (Text Analitycs) poate include
 analiza sentimentelor (Sentiments Analysis)
 marcare parțială a vorbirii;
 recunoașterea entității de nume;
 analiza legăturilor text.

Culegerea și pregătirea datelor


- eliminarea outlieri-lor;
- completarea valorilor lipsă;
- normalizarea datelor;
- standardizarea datelor;
- centrarea datelor etc

Preprocesarea textului
(transformarea acestuia)

Învățare
Modelarea supervizată
propriu-zisă
(se cunosc valorile
- descoperirea modelelor;
- extragerea celordesemnificative;
variabilelor ieșire)
- organizarea cunoștințelor.

Validarea modelului

 
Capitolul 1. Introducere în Analiza Datelor 14

Evaluarea rezultatelor
Posibile/a performanțelor

Implementarea
practică/realizare aplicații

Rezultate efective și comparare


cu cele estimate

Figura 1.3. Diagrama procesului de analiză a textului

1.5. Prelucrarea limbajului natural (NLP - Natural Language


Processing)

- este o arie de învățare automată și informatică (Computer Science)


utilizată pentru a ajuta computerul în procesarea și înțelegerea
limbajului natural.
- poate include
o etichetarea parțială a vorbirii;
o analiza, identificarea purtătorului;
o recunoașterea entității numelui;
o recunoașterea optică a caracterelor;
o analiza de sentiment;
o recunoașterea vorbirii;
o etc.
NLP lucrează îndeaproape cu Text Analitycs și Text Mining.

1.6. Tipuri de analiză/Analitycs

poate fi clasificată în:


- analitica descriptivă (Descriptive Analitycs): utilizează analitice de
date (Data Analitycs) pentru a ști ce s-a întâmplat;
- analitica predictivă (Predictive Analitycs): utilizează învățarea
statistică și învățarea automată pentru a prezice viitorul.

 
Capitolul 1. Introducere în Analiza Datelor 15

- analitica prescriptivă (Prescriptive Analitycs): utilizează algoritmi de


simulare pentru a ști ce trebuie făcut.
Observație: Niciunul dintre aceste tipuri analitice nu este mai bun decât celelalte,
dar ele pot fi combinate, pentru a da rezultate mai bune.

1.7. Big Data

- sunt seturi de date foarte mari și complexe, raportat la puterea de


prelucrare a unui computer
- există trei proprietăți sau caracteristici ale datelor mari și anume:
o volumul de date;
o viteza datelor;
o varietatea datelor.

1.8. Necesitatea și rolul Analizei Datelor

- este necesară o complexă și riguroasă analiză cantitativă a fenomenelor


și proceselor care fac obiectul cercetării.
- mulțimile de date conțin atât aspecte semnificative, cât și aspecte
nesemnificative ale manifestării fenomenelor.
- metodele și tehnicile de analiză a datelor sunt utilizate obținerea unor
reprezentări simplificate ale informațiilor de mare complexitate.
- rolul analizei datelor este de a prelucra și filtra informațiile conținute în
datele supuse studiului într-o formă de reprezentare inteligibilă,
sugestivă, simplificată și sintetizatoare.

1.9. Măsurarea și cuantificarea în domeniul economico-social

- măsurarea presupune totalitatea activităților de atribuire a unor valori


numerice pentru caracteristicile fenomenului analizat.

Unitățile de măsură

Parțialitatea informațiilor

Erorile

Erorile cu caracter sistematic

- reprezintă diferența dintre valoarea adevărată a unei mărimi la nivel de


populație și valoarea obținută pentru această mărime în urma măsurării
tuturor unităților elementare ale populației.

Erorile cu caracter accidental, aleator

 
Capitolul 1. Introducere în Analiza Datelor 16

- reprezintă diferența dintre valoarea unei mărimi calculate pe baza


unităților aparținând unui eșantion și valoarea aceleiași mărimi calculată
pe baza tuturor unităților populației.
Sursele erorilor cu caracter accidental(întâmplător) țin de:
- imperfecțiunile instrumentelor de măsurare;
- deficiențe în înregistrarea valorilor caracteristicilor urmărite;
- efectuarea inexactă a unor calcule;
- etc.

1.10. Definirea Analizei Datelor

- reprezintă
o o succesiune de operații de prelucrare și interpretare
o operații efectuate asupra unor informații primare referitoare la
fenomene și procese din realitatea economico-socială
o bazate pe o mare varietate de metode și tehnici specifice
o în scopul
 adâncirii cunoașterii comportamentului acestor
fenomene și procese
 formulării unor concluzii cu privire la specificitatea
manifestării lor.
Activități:
• formularea ipotezelor cu privire la comportamentul fenomenului ce
constituie obiectul studiului;
• organizarea experimentelor necesare măsurării caracteristicilor
fenomenului studiat;
• culegerea datelor privind comportamentul fenomenului;
• analiza și interpretarea datelor disponibile;
• formularea concluziilor, efectuarea predicțiilor și luarea deciziilor.
Un ciclu de utilizare a Data mining, presupune parcurgerea a patru etape:

- identificarea oportunităţii de afaceri şi a datelor pe baza cărora se va face


explorarea;
- extragerea de informaţii din bazele de date existente;
- luarea de decizii şi efectuarea de acţiuni, pe baza informaţiilor obţinute;
- măsurarea rezultatelor obţinute.

 
Capitolul 1. Introducere în Analiza Datelor 17

Data
mining

Oportunitate Decizie şi
de afaceri acţiune

Evaluare
rezultate

Figura 1.4. Utilizarea Data mining în oportunităţile de afaceri

1.11. Clasificarea metodelor de Analiză a Datelor

Metode de analiză a dependenței - pot fi clasificate în funcție de mai multe


criterii:

numărul de variabile dependente: o singură variabilă dependentă sau mai
multe variabile dependente;
• numărul de variabile independente: o singură variabilă independentă sau
mai multe variabile independente;
• tipul scalei pe care sunt măsurate variabilele dependente: scală non-
metrică sau scală metrică;
• tipul scalei pe care sunt măsurate variabilele independente: scală non-
metrică sau scală metrică;
Metodele de analiză a dependenței pot fi clasificate în funcție de numărul de
variabile dependente și de numărul de variabile independente în două grupe:
• metode unidimensionale de analiză a dependenței;
• metode multidimensionale de analiză a dependenței.

 
Capitolul 1. Introducere în Analiza Datelor 18

Clasificarea metodelor de analiză a dependenț ei

Num ar Num ar variabile dependente


variabile
independente O variabil a Mai multe variabile

Scala non-metrica Scala metrica Scala non-metrica Scala metrica

Scal a non- • Analiza discrimi- • testul t • Analiza multigrup a • Analiza multidi-


metric a nantului discriminantului mensionala a variantei
O variabila (discreta) (discreta) (MANOVA)

Scal a • Analiza • Regresie • Analiza multigrup a • Analiza corelatiilor


metric a discriminantului simpla discriminantului canonice
• Regresie logistica

Scal a non- • Analiza discrimi- • Analiza • Analiza multigrup a • Analiza multidi-


Mai metric a nantului ANOVA discriminantului mensionaa| a variantei
multe (discreta) (discret|) (MANOVA)
variabile • Analiza simultan|
(MONANOVA)
Scal a •Analiza • Regresie • Analiza multigrup a • Analiza corelatiilor
metric a discriminantului multipla discriminantului canonice
• Regresie logistica

Tabelul 1.1.

Metode de analiză a interdependenței

Analiza interdependenței are ca scop


- să identifice și să evidențieze situațiile în care variabilele sunt corelate între
ele
- să explice modul în care are loc corelarea variabilelor supuse analizei.
În funcție de numărul de variabile analizate, avem:
- metode de analiză a interdependenței dintre două variabile;
- metode de analiză a interdependenței dintre mai multe variabile.
În cadrul metodelor de analiză a interdependenței dintre două variabile
putem menționa:
- analiza corelației simple;
- analiza bazată pe tabele de contingență;
- etc.
Dintre metodele de analiză a interdependenței dintre mai multe variabile
putem menționa:
- analiza componentelor principale;
- analiza factorială;
- analiza corespondențelor;
- analiza cluster;
- etc.

 
Capitolul 1. Introducere în Analiza Datelor 19

Clasificarea metodelor de analiză a interdependențelor

Num ar Tipul scalei


variabile
Scal a non-metric a Scala metrica

Dou a variabile • Tabele de contingenta • Analiza corelatiei simple


(bidimensionale)
• Modele log-liniare

Mai multe • Analiza corespondentelor • Analiza componentelor


variabile • Modele log-liniare principale
• Tabele de contingenta • Analiza factoriala
(multidimensionale)

Tabelul 1.2.

S-ar putea să vă placă și