Sunteți pe pagina 1din 3

Introducere in STATISTICA si PROBABILITATI

rezumat

Curs introductiv n
STATISTIC i PROBABILITI

Capitolul 2:
Analiza descriptiva si prezentarea grafica a datelor
Textul original:
Elementary Statistics, Johnson/Kuby ITP Publishers ISBN 0534356761
B. Burt Gerstman, StatPrimer: Statistics for Public Health Practice.
www.sjsu.edu/faculty/gerstman/StatPrimer
Traducere si adaptare: dr. Camelia F. Voinea
Versiune-rezumat 1.5, 2009-2010

2.1 Prezentarea grafica a datelor


Caracteristici:
 Utilizarea tehnicilor de explorare in analiza datelor pentru a obtine reprezentari grafice ale datelor.
 Rezultatele prezentarilor grafice pun in evidenta modele (pattern-uri) de comportament ale
variabilelor studiate.
 Metoda utilizata este selectata in functie de tipul datelor si de ideea care trebuie evidentiata.
 La constructia unei reprezentari grafice nu exista o singura evaluarea corecta posibila, ci – in mod
obisnuit – mai multe.

Grafica de prezentare bazata pe cercuri si bare:Grafica utilizata pentru rezumate date de tip atribut.
Grafica bazata pe cercuri sectionate in felii (pie diagrams) arata cantitatea de date care apartine unei
anumite categorii de date ca o „felie“ proportionala a cercului
Barele grafice arata cantitatea de date care apartin fiecarei categorii ca niste zone dreptunghiulare
verticale cu marimi proportionale

Diagrama Pareto: Un grafic cu bare care are barele aranjate de la categoria cea mai numeroasa la cea
mai putin numeroasa. Mai include si o linie grafica pentru afisarea procentelor cumulative si a
contoarelor de numarare pentru fiecare bara.

Date cantitative (quantitative data): un motiv pentru constructia raficelor pentru date cantitative este
de a aexamina distributia datelor: daca sunt dispuse compact, imprastiate, simetric, etc.

Distributie (distribution): reprezinta modelul de variabilitatea (i.c.: felul in care variaza datele) pe
care il pun in evidenta datele atribuite unei variabile. Distributia prezinta (grafic) frecventa de aparitie
a fiecarei valori luate de acea variabila.

Afisare prin puncte (dotplot display): afiseaza adtele dintr-un esantion reprezentand fiecare element
de date cu ajutorul unui punct grafic pozitionat de-a lungul unei scale. Aceasta scala poate fi verticala
sau orizonatala. Frecventa valorilor este reprezentata de-a lungul scalei.

Pagina 1
Introducere in STATISTICA si PROBABILITATI
rezumat

2.2 Ce ar trebui sa observam la „distributii“ ?


Caracteristicile distributiei

Caracteristicile de interes sunt:


Forma (Shape): se refera la configuratia valorilor atunci cand sunt reprezentate pe grafic.
Localizarea (Location) se refera la pozitia punctelor de date pe grafic.
Dispersia sau „imprastierea“ datelor (Spread) se refera la dispersia valorilor in jurul unui punct
central de referinta. Histogramele furnizeaza mai multe informatii cu privire la dimensiunile
distributionale. O astfel de histograma este data in Figura 4:
Descriptorii de forma (Shape Descriptors)
Forma unei distributii poate fi descrisa in termeni de simetrie, modalitate si curbura.
Simetrie: se refera la gradul in care o distributie se reflecta ca o imagine in oglinda fata de centrul sau.
Modalitate: se refera la numarul de varfuri pe care le are o distributie.
Kurtosis: se refera la cat de ascutita sau de plata apare distributia. Distributiile asimetrice sunt
descrise prin pozitia zonei alungite (coada). O distributie cu o coada lunga la dreapta se spune ca are
skew pozitiv, iar cu o coada lunga la stanga se spune ca are un skew negativ (vezi Figura 5) .
Distributia poate fi unimodala (cu un singur varf), bimodala (cu doua varfuri) sau multimodala (varfuri
multiple) .
Nota:
1. Modul este valoarea care apare cu cea mai mare frecventa.
2. Clasa modala este clasa cu cea mai mare frecventa.
3. O distributie bimodala are doua clase de inalta frecventa separate de clase cu frecvente
inferioare.

Localizare
Locatia unei distributii este de obicei descrisa in termenii centrului sau. Cea mai comuna masura a
centrului locatiei este media. Alte masuri sunt mediana si modul.
Media, mediana si modul sunt aceleasi cand distributia este simetrica si unimodala.

Dispersia (Spread)
Dispersia unei distributii inseamna variabilitatea valorilor (cat de multe valori sunt dispersate in
populatie). Masurile obisnuite ale dispersiei includ: variana, abaterea (deviaia) standard si
domeniul intercuartil (inter-quartile range). Curbele din Figura 7 reprezinta doua distributii cu
aceeasi locatie centrala, dar cu dispersii diferite.

2.3. Tabele de Frecventa si Histograme


Tabele de frecvena pentru date brute
Sunt 3 tipuri diferite de frecvente:
Contori de frecventa (Frequency counts, fi): Numarul de aparitii ale unei valori in setul de date.

Frecvente relative (pi) : Contor de frecventa exprimat ca procente din total.


Frecvente cumulative [relative] (ci): frecvente relative pana la sau incluzand domeniul curent de
valori ordonate.

Distributii de frecventa

Pagina 2
Introducere in STATISTICA si PROBABILITATI
rezumat

Distributiile de frecvente si histogramele sunt utilizate pentru rezumarea unor seturi largi de date.
Distributie de frecvente: o lista care imperecheaza (adesea sub forma grafica) fiecare valoare cu
frecventa sa. Grupate si negrupate.
Distributie de frecvente negrupata: fiecare clasa contine o singura valoare din distributie.
Distributie de frecvente grupata: valorile sunt grupate intr-un set de clase.

Procedura pentru constructia unei distributii de frecvente:


1. Se identifica valorile superioara (H) si inferioara (L). Se stabileste domeniul = H - L.
2. Se selecteaza un numar de clase si latimea unei clase.
3. Se alege un punct de start ceva mai mic decat L. Se masoara de la L o latime de clasa si se obtine
limita clasei. Observatiile care cad pe limita clasei sunt plasate in intervalul-clasa la dreapta.

Histograma: un grafic cu bare care reprezinta distributia de frecvente a unei variabile cantitative.
Histograma este compusa din urmatoarele componente:
1. Un titlu care identifica populatia de interes
2. O scara verticala care identifica frecventele din diferitele clase
3. O scara orizontala care identifica variabila x. Valorile pentru limitele claselor sau marcajele de
clase pot fi etichetate pe axa-x.
Termeni cel mai frecvent utilizati pentru a descrie histogramele:
Simetrica: ambele parti ale distributiei sunt identice. Exista o linie de simetrie.
Uniforma (rectangulara): Fiecare valoare apare cu o frecventa egala.
Alungita (Skewed): una dintre cozi este mai alungita decat cealalta.
Normala: o distributie simetrica este „inghesuita“ in zona mediei si incepe sa se „rareasca“ spre
margini.

Pagina 3

S-ar putea să vă placă și