Sunteți pe pagina 1din 11

S1

UNIVERSITATEA TITU MAIORESCU

FACULTATEA DE INFORMATICĂ

MASTER ȘTIINȚA DATELOR ȘI IA

ANALIZA DATELOR

Autor:
Prof.univ.dr.ing.Titi PARASCHIV

Ianuarie 2023
P = mv
S2
ANALIZA DATELOR

Analiza datelor reprezintă un proces complex și sistematic de


aplicare a tehnicilor statistico-matematice și informatice, în scopul
extragerii, din colecția de date constituită, a informațiilor necesare
procesului decizional.
Surse de date:
a. Cercetări cantitative:
- Sondaje; biosemnale,
- Observarea; Date on-line,
- Experimentul;
b. Surse secundare de date:
- interne;
- externe;
c. Cercetări calitative:
- focus grupuri;
- clientul misterios;
- interviuri în profunzime;
- teste de utilitate;
P = mv
S3
TIPURI DE ANALIZĂ A DATELOR

Clasificarea tipurilor de analiză după următoarele criterii:


1. Numărul eșantioanelor cercetate:
- Un singur eșantion;
- Două eșantioane;
- Mai mult de două eșantioane;
2. Natura relației dintre eșantioane:
- Eșantioane independente;
- Eșantioane dependente;
3. Numărul variabilelor utilizate:
- O singură variabilă (analiza univariată);
- Două variabile (analiza bivariată);
- Mai mult de două variabile (analiza
multivariată);
4. Natura relatiei dintre variabile:
- Variabile independente;
- Variabile dependente;
P = mv
S4
OBIECTIVELE ANALIZEI

Analiza are două tipuri de obiective:


- Obiective generale ale analizei;
- Obiective specifice ale analizei.

Obiectivele generale ale analizei sunt:


- Determinarea tendinței centrale;
- Caracterizarea variației și dispersiei;
- Măsurarea gradului de asociere;
- Realizarea de estimări și previziuni;
- Evaluarea semnificației diferențelor dintre variabile
și grupuri de variabile;
- Evidențierea legăturilor cauzale;
- Determinarea corelațiilor
P = mv
S5
OBIECTIVELE ANALIZEI
Obiectivele specifice ale analizei
1. Analiza primară a datelor:
- Măsurarea tendinței centrale;
- Analiza variației;
- Stabilirea normalității distribuției;
2. Analiza diferențială:
- Identificarea existenței unor diferențe statistice între eșantioane
(grupuri) de respondenți
3. Analiza asociativă:
- Identificarea existenței unor asemănări (asocieri) semnificative
statistic variabile demografice si psiho-comportamentale
4. Analiza inferențială:
- Identificarea gradului în care valorile identificate la nivel de eșantion
sunt reprezentative la nivelul populațiilor investigate;
5. Analiza predictivă:
- Identificarea evoluției ulterioare a fenomenelor investigate
6. Analiza complexă a datelor:
- Analiza canonică, analiza discriminantului, analiza structurilor latente
- Modelarea
7. Analiza bivariată a Datelor
- Presupune masurarea gradului de asociere a două variabile, sub
aspectul:
- Direcției (naturii); -Intensității; -Semnificației statistice
P = mv
TIPURI DE VARIABILE S6

Variabilele nominale:
1. Tabele de frecvențe (contingență) considerată simultan pentru două sau mai multe
variabile caracteristice aceluiași eșantion;
2. Coeficientul de corelație (valori între -1 și +1)
3. Directia asocierii este dată de valoarea lui (rphi)22
4. Gradul de semnificație al asocierii dintre opiniile subiecților constituiți în cele două
eșantioane independente este determinat cu ajutorul testului χ2, McNemar sau Fisher.
Variabilele ordinale
1. Tabele de frecvențe (contingență) considerată simultan pentru
două sau mai multe variabile caracteristice aceluiași eșantion;
2. Măsurarea gradului de asociere se realizează prin utilizarea coeficientului Spearman
de corelație a rangurilor;
3. Directia asocierii este dată de valoarea Coeficientului de corelație Spearman sau
Coeficientului de corelatie γ al lui Goodman și Kruskall;
4. Gradul de semnificație al asocierii dintre opiniile subiecților constituiți în cele două
eșantioane independente este determinat cu coeficientului de semnificație al lui
Spearman.
Variabile metrice
1. Tabele de frecvențe (contingență) considerată simultan pentru două sau mai multe
variabile caracteristice aceluiași eșantion;
2. Măsurarea gradului de asociere se face prin utilizarea coeficientului Pearson de
corelatie a rangurilor; Directia asocierii rangurilor este data de valoarea lui r.
3. Gradul de semnificatie al asocierii dintre opiniile subiecților constituiți în cele două
eșantioane, este determinat prin testarea semnificației statistice a coeficientului r.
P = mv
S7
ANALIZA MULTIVARIATĂ A DATELOR

Presupune utilizarea unui grup de metode statistico-matematice


cu ajutorul carora se pot cerceta simultan legaturile de
asociere existente intre mai mult de doua variabile.

Cele mai utilizate tehnici sunt:


1. Analiza regresiei multiple;
2. Analiza discriminantului;
3. Analiza multivariată a variației;
4. Analiza canonică;
5. Analiza factorială;
6. Analiza grupurilor;
7. Scalarea multidimensională.
P = mv
S8
METODE DE ANALIZĂ MULTIVARIANTĂ A DATELOR

1. Criteriile de clasificare a metodelor sunt:


- Existenta unor relații de dependență (cauzalitate) și/sau asociere;
- Numărul de variabile dependente;
- Tipul de scală utilizat
2. O singura variabilă dependentă:
- Scale parametrice: analiza discriminantului liniar multiplu;
- Scale nonparametrice: regresia multiplă.
3. Mai multe variabile dependente:
- Scale parametrice: analiza multivariată a variației;
- Scale nonparametrice: analiza canonică.
4. Variabile independente:
a. Scale parametrice:
- Analiza factorială;
- Analiza grupurilor;
- Scalare multidimensională parametrică.
b. Scale nonparametrice:
- Scalare multidimensională nonparametrică;
- Analiza structurilor latente.
P = mv
S9
1. METODE DE ANALIZĂ

Metoda regresiei multiple permite analiza relației liniare dintre o variabilă


dependentă (VD) și una sau mai multe variabile indepentende (VI).
Obiectiv: explicarea și previziunea variației VD în funcție de covarianța ei cu VI.
Analiza multivariată a variației cuprinde un grup de metode: proiectări factoriale,
pătratele latine, pătratele greco-latine.
Obiectiv: separarea și testarea semnificației efectelor cauzate de acțiunea
simultană a mai multor factori.
Analiza diferențială a datelor
Utilizată pentru stabilirea reprezentativității statistice a diferențelor constatate între:
- o valoare presupusă a unui indicator (ipoteză) și valoarea estimată la
nivelul populației investigate;
- două sau mai multe VI;
- două sau mai multe eșantioane dependente (analiza transversală sau
longitudinală).
Utilizări frecvente:
- testarea ipotezelor statistice sau a reprezentativității indicatorilor statistici;
- testarea semnificatiei variatiei valorilor observate pentru doua sau mai
multe variabile;
- testarea semnificatiei variatiei valorilor observate pentru doua sau mai
multe grupuri (eșantioane);
P = mv
S10
ANALIZA PREDICTIVĂ

Presupune realizarea de estimări asupra evoluției viitoare a


fenomenelor din psihologie, utilizând ca metode de lucru:
1. Analiza seriilor dinamice (univariată);
2. Regresia (bivariată sau multivariată);
- liniară;
- logistică;
- hiperbolică;
3. Modelarea.
Criteriile de clasificare ale Analizei predictive:
1. Gradul de cuprindere la care se face previziunea;
2. Aria geográfica inclusa in procesul de previziune;
3. Orizondul de previziune
4. Alte criterii:
- Precizia rezultatelor (previziuni cantitative si calitative);
- Tipul de date utilizate;
- Considerarea influențelor unor factori perturbatori (metode
endogene și exogene);
P = mv
S11
ANALIZA ASOCIATIVĂ A DATELOR
Presupune măsurarea gradului de asociere sistematică a valorilor a două
variabile, sub aspectul:
- Direcției (directă/inversă);
- Intensității (forței): puternică; moderată; slabă; foarte slabă;
inexistentă.
- Semnificației statistice.
Există 4 tipuri de asocieri statistice:
1. Non-monotone (prezența sau absența unei variabile este sistematic
asociată cu prezența sau absența valorilor unei alte variabile) – nu permite
identificarea clară a directiei;
2. Monotone (se poate identifica direcția asociațiilor, dar nu și intensitatea)
- ex: înălțimea unei persoane influențează mărimea numărului la pantofi);
3. Liniară și non-liniară (se pot identifica direcția și intensitatea)
Dacă se cunoaște valoarea unei variabile poate fi identificată valoarea celeilalte
variabile;
Indicatorii cei mai utilizați sunt:
- Coeficientul de corelație Spearman sau Kendall;
- Coeficientul de contingență C;
- Coeficientii de corelatie a rangurilor Spearman și Kruskalsi-Goodman;
- Coeficientul de corelatie r (Pearson);

S-ar putea să vă placă și