Sunteți pe pagina 1din 8

Laborator nr.3.

Analiza Datelor

Analiza exploratorie a datelor. Reprezentarea grafică a datelor (scatter plot,


boxplot). Estimarea densităților de repartiție cu ajutorul histogramelor

Analiza exploratorie a datelor (Exploratory Data Analysis – John Tukey, 1977) include
metode statistice elementare cât și avansate (tehnici exploratorii multivariate) create pentru
identificarea anumitor pattern-uri ascunse în mulțimi multivariate de date.

Într-o problemă de analiză a datelor, se urmăresc, referitor la o serie statistică:

- măsuri tipice ale tendinței centrale (locației): modul (mode), mediana (median), media
(mean, arithmetic mean, average), media geometrică și media armonică;
- măsuri tipice ale împrăștierii (deviației): dispersia (variance), deviația
standard/abaterea medie pătratică (standard deviation);
- măsuri tipice ale formei repartiției: asimetria (skewness)(măsura deviației repartiției
date de la simetrie) și excesul(kurtosis)(ascuțimea unei repartiții – cât de dispusă este
acea repartiție de a avea valori extreme (outliers)).

Reprezentarea grafică a datelor presupune conversia acestora într-un format vizual, astfel
încât să se poată analiza și raporta rapid caracteristicile datelor, precum și a relațiilor dintre
atributele considerare. Reprezentările grafice aferente unui set de date depind de natura
atributelor (calitative sau cantitative). Exemplu de reprezentări pentru date calitative:
reprezentări circulare (pie), bare (bar chart), histograme.

Fie fișierul sursă laborator3.csv. Importați datele din acest fișier. După cum se
observă din figura 1, fișierul conține 11 variabile (atât numerice cât și categoriale) și 200 de
observații.
Laborator nr.3. Analiza Datelor

Figura 1 Fișierul sursă laborator3.csv

Calculați statisticile descriptive: valoarea minimă, valoarea maximă, media, abaterea


standard, dispersia și asimetria pentru atributul math. Pentru aceasta, din meniul principal se
urmează calea: Analyze→Descriptive Statistics→Descriptives și se bifează statisticile
descriptive dorite. Rezultatele sunt evidențiate în fișierul de ieșire prezentat în figura 2.

Figura 2 Rezultatele obținute pentru statisticile descriptive considerate

Reprezentați grafic variabila math, utilizând histograma. Pentru aceasta, din meniul Graphs
se alege opțiunea Histogram și se stabilește variabila pentru care se dorește realizarea
histogramei. O altă variantă este alegerea din meniul Analyze→Descriptive Statistics a
opțiunii Frequencies și din fereastra Frequencies: Charts se bifează opțiunea pentru realizarea
histogramei corespunzătoare variabilei math.

Analog, reprezentați grafic variabila race sub forma barelor și a formei circulare (pie) (vezi
figura 4).
Laborator nr.3. Analiza Datelor

Figura 3 Histograma variabilei math

Figura 4 Diagrama de tip pie și bar chart pentru variabila race

Reprezentarea grafică sub fomă de bar chart se poate realiza și urmând calea: Graphs→
Barchart, având ca rezultat diagrama din figura 5.

Figura 5 Diagrama de tip barchart pentru variabila race


Laborator nr.3. Analiza Datelor

Diferența dintre cele două diagrame de tip bare, este faptul că cea din figura 5 constituie
graficul pentru variabila race, tinând cont de valorile variabile gender (female, male).

Folosind același fișier sursă laborator3.cvs realizați un grafic de tip scatter plot și
interpretați rezultatele. Se dorește să se cunoască dacă există o legătură între notele obținute la
matematică (variabila math) și notele obținute la științe (variabila science).

După încărcarea datelor din fișierul sursă, se alege din meniul Graph opțiunea Scatterplot.

Figura 6 Stabilirea variabilelor pentru realizarea graficului XY (Scatter Plot)

Să se realizeze un grafic de tip boxplot pentru variabila math. Pentru aceasta este
nevoie de creare unui fișier sintaxă astfel: File→New→Syntax în care se vor scrie comenzile
necesare. Comanda examine este utilizată în analiza exploratorie a datelor, în special, fiind
utilă la testarea cât de strânsă o distribuție urmează o distribuție normală și pentru a găsi
valori anormale (outliers) și valori extreme. O variantă de sintaxă corespunzătoare realizării
unui grafic boxplot este cea din figura 7.

Figura 7 Sintaxa pentru realizarea unui boxplot


Laborator nr.3. Analiza Datelor

Rezultatele obținute sunt prezentate în figura 8. Cele trei valori din tabel (45.00, 52.00 și
59.00) corespunzătoare percentilelor 35, 50 și 75 vor fi folosite la desenarea boxplot-ului. De
asemenea, au fost furnizate cele mai mari 3 valori, respectiv cele mai mici 3 valori (solicitate
prin comanda /statistics=extreme(3).

Figura 8 Boxplot-ul pentru variabila math

Atunci când se ține cont la realizarea graficului boxplot pentru variabila math, de valorile
acestei variabile grupate pe rasa individului (examine variable=math by race
…/compare=group), rezultatele sunt cele prezentate în figura 9. Se observă că pentru fiecare
rasă sunt precizate cele mai mari 3 valori, respectiv cele mai mici 3 valori ale variabilei math.
În figura 10 se prezintă graficele rezultate, pentru fiecare rasă a indivizilor.
Laborator nr.3. Analiza Datelor

Figura 9 Valorile extreme ale variabilei math grupate pe race

Figura 10 Boxplot-uri realizate pentru variabila math ținând cont de variabila race

Valoarea 67 din graficul din figura 10 corespunde outlier-ului variabilei math (solicitată prin
/ID=math).
Laborator nr.3. Analiza Datelor

Scrieți sintaxa pentru realizarea boxplot-ului corespunzător variabilei math și write,


indicând id-urile indivizilor care au înregistrat valorile de tip outlier pentru variabila math.
Interpretați rezultatele.

O variantă de sintaxă este cea din figura 11.

Figura 11 Boxplot pentru variabilele math și write

Crearea unui boxplot în PSPP

Tabelele cu valorile extreme și percentile pentru variabila nota1

Boxplot-ul pentru variabila nota1


Laborator nr.3. Analiza Datelor

Valorile extreme și percentile ale variabilei nota1, raportate la variabila gen

Boxplot pentru nota1, raportat la variabila gen

Bibliografie
http://www.gnu.org/software/pspp/.
PSPP Users’ Guide, http://www.gnu.org/software/pspp/manual/pspp.pdf
https://www.openintro.org/stat/extras.php
http://www.bikeprof.com/uploads/9/0/6/5/9065192/stats_intro_in_pspp_handout_npl.pdf

https://profs.info.uaic.ro/~val/statistica/

S-ar putea să vă placă și