Sunteți pe pagina 1din 3

Introducere in STATISTICA si PROBABILITATI rezumat

Curs introductiv in STATISTICA si PROBABILITATI Capitolul 2: Analiza descriptiva si prezentarea grafica a datelor
Textul cursului (tradus si adaptat) din: Elementary Statistics, Johnson/Kuby ITP Publishers ISBN 0534356761 B. Burt Gerstman, StatPrimer: Statistics for Public Health Practice. www.sjsu.edu/faculty/gerstman/StatPrimer Versiune-rezumat 1.3, 2008

2.1 Prezentarea grafica a datelor


Caracteristici: Utilizarea tehnicilor de explorare in analiza datelor pentru a obtine reprezentari grafice ale datelor. Rezultatele prezentarilor grafice pun in evidenta modele (pattern-uri) de comportament ale variabilelor studiate. Metoda utilizata este selectata in functie de tipul datelor si de ideea care trebuie evidentiata. La constructia unei reprezentari grafice nu exista o singura evaluarea corecta posibila, ci in mod obisnuit mai multe. Grafica de prezentare bazata pe cercuri si bare:Grafica utilizata pentru rezumate date de tip atribut. Grafica bazata pe cercuri sectionate in felii (pie diagrams) arata cantitatea de date care apartine unei anumite categorii de date ca o felie proportionala a cercului Barele grafice arata cantitatea de date care apartin fiecarei categorii ca niste zone dreptunghiulare verticale cu marimi proportionale Diagrama Pareto: Un grafic cu bare care are barele aranjate de la categoria cea mai numeroasa la cea mai putin numeroasa. Mai include si o linie grafica pentru afisarea procentelor cumulative si a contoarelor de numarare pentru fiecare bara.

Date cantitative (quantitative data): un motiv pentru constructia raficelor pentru date cantitative este de a aexamina distributia datelor: daca sunt dispuse compact, imprastiate, simetric, etc. Distributie (distribution): reprezinta modelul de variabilitatea (i.c.: felul in care variaza datele) pe care il pun in evidenta datele atribuite unei variabile. Distributia prezinta (grafic) frecventa de aparitie a fiecarei valori luate de acea variabila. Afisare prin puncte (dotplot display): afiseaza adtele dintr-un esantion reprezentand fiecare element de date cu ajutorul unui punct grafic pozitionat de-a lungul unei scale. Aceasta scala poate fi verticala sau orizonatala. Frecventa valorilor este reprezentata de-a lungul scalei.

Pagina 1

Introducere in STATISTICA si PROBABILITATI rezumat

2.2 Ce ar trebui sa observam la distributii ?


Caracteristicile distributiei
Caracteristicile de interes sunt: Forma (Shape): se refera la configuratia valorilor atunci cand sunt reprezentate pe grafic. Localizarea (Location) se refera la pozitia punctelor de date pe grafic. Dispersia sau imprastierea datelor (Spread) se refera la dispersia valorilor in jurul unui punct central de referinta. Histogramele furnizeaza mai multe informatii cu privire la dimensiunile distributionale. O astfel de histograma este data in Figura 4:

Descriptorii de forma (Shape Descriptors)


Forma unei distributii poate fi descrisa in termeni de simetrie, modalitate si curbura. Simetrie: se refera la gradul in care o distributie se reflecta ca o imagine in oglinda fata de centrul sau. Modalitate: se refera la numarul de varfuri pe care le are o distributie. Kurtosis: se refera la cat de ascutita sau de plata apare distributia. Distributiile asimetrice sunt descrise prin pozitia zonei alungite (coada). O distributie cu o coada lunga la dreapta se spune ca are skew pozitiv, iar cu o coada lunga la stanga se spune ca are un skew negativ (vezi Figura 5) .
Distributia poate fi unimodala (cu un singur varf), bimodala (cu doua varfuri) sau multimodala (varfuri multiple) . Nota:

1. Modul este valoarea care apare cu cea mai mare frecventa. 2. Clasa modala este clasa cu cea mai mare frecventa. 3. O distributie bimodala are doua clase de inalta frecventa separate de clase cu frecvente inferioare. Localizare Locatia unei distributii este de obicei descrisa in termenii centrului sau. Cea mai comuna masura a centrului locatiei este media. Alte masuri sunt mediana si modul. Media, mediana si modul sunt aceleasi cand distributia este simetrica si unimodala. Dispersia (Spread) Dispersia unei distributii inseamna variabilitatea valorilor (cat de multe valori sunt dispersate in populatie). Masurile obisnuite ale dispersiei includ: variana, abaterea (deviaia) standard si domeniul intercuartil (inter-quartile range). Curbele din Figura 7 reprezinta doua distributii cu aceeasi locatie centrala, dar cu dispersii diferite.

2.3. Tabele de Frecventa si Histograme


Tabele de frecvena pentru date brute
Sunt 3 tipuri diferite de frecvente: Contori de frecventa (Frequency counts, fi): Numarul de aparitii ale unei valori in setul de date. Frecvente relative (pi) : Contor de frecventa exprimat ca procente din total. Frecvente cumulative [relative] (ci): frecvente relative pana la sau incluzand domeniul curent de valori ordonate. Distributii de frecventa Distributiile de frecvente si histogramele sunt utilizate pentru rezumarea unor seturi largi de date.

Pagina 2

Introducere in STATISTICA si PROBABILITATI rezumat

Distributie de frecvente: o lista care imperecheaza (adesea sub forma grafica) fiecare valoare cu frecventa sa. Grupate si negrupate. Distributie de frecvente negrupata: fiecare clasa contine o singura valoare din distributie. Distributie de frecvente grupata: valorile sunt grupate intr-un set de clase. Procedura pentru constructia unei distributii de frecvente: 1. Se identifica valorile superioara (H) si inferioara (L). Se stabileste domeniul = H - L. 2. Se selecteaza un numar de clase si latimea unei clase. 3. Se alege un punct de start ceva mai mic decat L. Se masoara de la L o latime de clasa si se obtine limita clasei. Observatiile care cad pe limita clasei sunt plasate in intervalul-clasa la dreapta. Histograma: un grafic cu bare care reprezinta distributia de frecvente a unei variabile cantitative. Histograma este compusa din urmatoarele componente: 1. Un titlu care identifica populatia de interes 2. O scara verticala care identifica frecventele din diferitele clase 3. O scara orizontala care identifica variabila x. Valorile pentru limitele claselor sau marcajele de clase pot fi etichetate pe axa-x. Termeni cel mai frecvent utilizati pentru a descrie histogramele: Simetrica: ambele parti ale distributiei sunt identice. Exista o linie de simetrie. Uniforma (rectangulara): Fiecare valoare apare cu o frecventa egala. Alungita (Skewed): una dintre cozi este mai alungita decat cealalta. Normala: o distributie simetrica este inghesuita in zona mediei si incepe sa se rareasca spre margini.

Pagina 3