Documente Academic
Documente Profesional
Documente Cultură
Analiza Datelor
Analiza exploratorie a datelor (Exploratory Data Analysis – John Tukey, 1977) include
metode statistice elementare cât și avansate (tehnici exploratorii multivariate) create pentru
identificarea anumitor pattern-uri ascunse în mulțimi multivariate de date.
- măsuri tipice ale tendinței centrale (locației): modul (mode), mediana (median), media
(mean, arithmetic mean, average), media geometrică și media armonică;
- măsuri tipice ale împrăștierii (deviației): dispersia (variance), deviația
standard/abaterea medie pătratică (standard deviation);
- măsuri tipice ale formei repartiției: asimetria (skewness)(măsura deviației repartiției
date de la simetrie) și excesul(kurtosis)(ascuțimea unei repartiții – cât de dispusă este
acea repartiție de a avea valori extreme (outliers)).
Reprezentarea grafică a datelor presupune conversia acestora într-un format vizual, astfel
încât să se poată analiza și raporta rapid caracteristicile datelor, precum și a relațiilor dintre
atributele considerare. Reprezentările grafice aferente unui set de date depind de natura
atributelor (calitative sau cantitative). Exemplu de reprezentări pentru date calitative:
reprezentări circulare (pie), bare (bar chart), histograme.
Fie fișierul sursă laborator3.csv. Importați datele din acest fișier. După cum se
observă din figura 1, fișierul conține 11 variabile (atât numerice cât și categoriale) și 200 de
observații.
Laborator nr.3. Analiza Datelor
Reprezentați grafic variabila math, utilizând histograma. Pentru aceasta, din meniul Graphs
se alege opțiunea Histogram și se stabilește variabila pentru care se dorește realizarea
histogramei. O altă variantă este alegerea din meniul Analyze→Descriptive Statistics a
opțiunii Frequencies și din fereastra Frequencies: Charts se bifează opțiunea pentru realizarea
histogramei corespunzătoare variabilei math.
Analog, reprezentați grafic variabila race sub forma barelor și a formei circulare (pie) (vezi
figura 4).
Laborator nr.3. Analiza Datelor
Reprezentarea grafică sub fomă de bar chart se poate realiza și urmând calea: Graphs→
Barchart, având ca rezultat diagrama din figura 5.
Diferența dintre cele două diagrame de tip bare, este faptul că cea din figura 5 constituie
graficul pentru variabila race, tinând cont de valorile variabile gender (female, male).
Folosind același fișier sursă laborator3.cvs realizați un grafic de tip scatter plot și
interpretați rezultatele. Se dorește să se cunoască dacă există o legătură între notele obținute la
matematică (variabila math) și notele obținute la științe (variabila science).
După încărcarea datelor din fișierul sursă, se alege din meniul Graph opțiunea Scatterplot.
Să se realizeze un grafic de tip boxplot pentru variabila math. Pentru aceasta este
nevoie de creare unui fișier sintaxă astfel: File→New→Syntax în care se vor scrie comenzile
necesare. Comanda examine este utilizată în analiza exploratorie a datelor, în special, fiind
utilă la testarea cât de strânsă o distribuție urmează o distribuție normală și pentru a găsi
valori anormale (outliers) și valori extreme. O variantă de sintaxă corespunzătoare realizării
unui grafic boxplot este cea din figura 7.
Rezultatele obținute sunt prezentate în figura 8. Cele trei valori din tabel (45.00, 52.00 și
59.00) corespunzătoare percentilelor 35, 50 și 75 vor fi folosite la desenarea boxplot-ului. De
asemenea, au fost furnizate cele mai mari 3 valori, respectiv cele mai mici 3 valori (solicitate
prin comanda /statistics=extreme(3).
Atunci când se ține cont la realizarea graficului boxplot pentru variabila math, de valorile
acestei variabile grupate pe rasa individului (examine variable=math by race
…/compare=group), rezultatele sunt cele prezentate în figura 9. Se observă că pentru fiecare
rasă sunt precizate cele mai mari 3 valori, respectiv cele mai mici 3 valori ale variabilei math.
În figura 10 se prezintă graficele rezultate, pentru fiecare rasă a indivizilor.
Laborator nr.3. Analiza Datelor
Figura 10 Boxplot-uri realizate pentru variabila math ținând cont de variabila race
Valoarea 67 din graficul din figura 10 corespunde outlier-ului variabilei math (solicitată prin
/ID=math).
Laborator nr.3. Analiza Datelor
Bibliografie
http://www.gnu.org/software/pspp/.
PSPP Users’ Guide, http://www.gnu.org/software/pspp/manual/pspp.pdf
https://www.openintro.org/stat/extras.php
http://www.bikeprof.com/uploads/9/0/6/5/9065192/stats_intro_in_pspp_handout_npl.pdf
https://profs.info.uaic.ro/~val/statistica/