Documente Academic
Documente Profesional
Documente Cultură
Statistica descriptiva
Statistică descriptivă
5
valori raport
4
0
1 2 3 4 5 6 7 8 9 10
pacienti
Media si mediana
Distributie
normala
Distributie Distributie la
la stanga dreapta
Dominanta( mode)
• Cea mai frecventa aparitie a unui eveniment (valoarea care apare cel mai
frecvent intr-un set de date)
• Se utilizeaza in special cand distributia este bimodala (care arata o
populatie neomogena)
60%
400
Numar pacienti
50% 350
40% 300
30%
250
20% 200
20% 150
10% 4% 100
1% 50
0% 0
Caprui Negri Verzi Albastri
1
10
da
da
da
da
da
da
da
da
da
Culoarea ochilor
da
ca
ca
ca
ca
ca
ca
ca
ca
ca
ca
De
De
De
De
De
De
De
De
De
De
Distributie unimodala Distributie bimodala
Deviatia (abaterea) standard
•
• Abaterea standard de sondaj (SSD) este un estimator al abaterii
standard a populaţiei, bazat pe un eşantion aleator. Ca statistică,
măsoară gradul de împrăştiere a eşantionului în jurul mediei de
sondaj.
• Se utilizeaza numai pentru valori uniform distribuite (simetrice)
• SSD - notata σ = √[∑(xi-μ)2/(n-1)], μ - media
• μ+/-σ include 68.2% din valori
• μ+/-2σ include 95.4% din valori
• μ+/-3σ include 99.7% din valori
• Eroarea standard : SE = SD/√n
• Varianta (variance) = SD2
Curba Gauss (curba ce reflecta distributia
normala ) (Wikipedia )
Eroarea standard si limitele de incredere
• Intervalul reprezinta de fapt masura unui interval asa cum stim noi de la
matematica adica: diferenta intre cea mai mare si cea mica observatie : x
є [a, b]; range = b-a; b > a; a,b є R
• Skewness - este folosit in analiza distributiei unei serii de date pentru a indica deviatia
distributiei empirice in raport cu o distributie simetrica in jurul mediei.
Interpretare:
• Skewness > 0 - distributia este inclinata spre stanga, avand mai multe valori extreme
spre dreapta.
• Skewness < 0 - distributia este inclinata spre dreapta, avand mai multe valori
extreme spre stanga.
• Skewness = 0 - media = mediana, distributia este simetrica in jurul mediei.
•
Kurtosis - este folosit in analiza distributiei unei serii de date pentru a indica gradul de
aplatizare sau de ascutire a unei distributii.
Interpretare:
• Kurtosis > 3 – curba este mai ascutita decat o distibutie normala; avand mai multe
valori concentrate in jurul mediei si cozi mai groase ceeea ce inseamna probabilitati
ridicate pentru valorile extreme. (distributie leptokurtica)
• Kurtosis < 3 –curba este mai plata decat o distibutie normal avand valori dispersate
pe un interval mai mare in jurul mediei. Probabilitatea pentru valori extreme este mai
mica decat in cazul unei distributii normale. (distributie platikurtica)
• Kurtosis = 3 - exemplu distributia normala.( distributie mezokurtica)
Exemple de analiza statistica descriptiva
80
90
70
80
70 60
60
50
Valori CD3
50
40 40
30
30
20
10 20
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 10
Pacienti
0
0 5 10 15 20 25 30 35 40
Alte exemple
Alte exemple
5
valori raport
0
1 2 3 4 5 6 7 8 9 10
pacienti
• Quantilele impart seria de date in r grupe ale caror efe ctive sunt egale. In
general se utilizeaza quartilele ce impart volumul de date in patru parti
egale. Mediana este quantila de ordin 2. Mai exista decile, centile, utilizate
dupa necesitati.
• Percentila de ordin p a unei serii numerice (observate) este cel mai mic
număr astfel încât cel puţin p% dintre numere nu sunt mai mari decât el.
• Percentila este data de procentul (%) de distributie mai mic decat un
numar particular (k);
• Este folosita pentru a compara o valoare individuala cu un set de norme (o
norma);
• IQR (interquartile range) – contine 50% din observatii
• IQR este data de diferenta percentila 75 – percentila 25
• IQR contine mediana
10
Frequency
6
Mean =12,2
0 Std. Dev. =7,
0 10 20 30 40 149
Normal Q-Q Plot of CD3 Normal Q-Q Plot of CD8 N =41
CD16
85 40
80
Expected Normal Value
60 10
10
55
50 60 70 80 10 20 30 40
-10
0 10 20 30
Observed Value
Programul SPSS ofera posibilitatea reprezentarii Q-Q plot( utilizand quartilele) pentru verificarea
normalitatii . Prin aceasta procedura se compara datele observate (reprezentate cu cerculet) cu datele
pe care ar trebui sa le avem ( reppezentate prin linie dreapta) daca distributia noastra ar urma
perfect distributia normala, cu aceeasi medie si aceiasi abatere standard. Daca distributia datelor este
normala, atunci graficul trebuie sa arate o tendinta liniara.
Cum se utilizeaza cele prezentate in masuratorile
pentru dispersie (imprastiere)
• SD se foloseste impreuna cu media pentru valori simetrice
(normal distribuite)
• Percentilele si IQR sunt folosite :
1. impreuna cu mediana pentru valori non-simetrice
2. impreuna cu media pentru a compara o valoare individuala cu un set de
norme
• IQR este folosit pentru a evidentia tendinta centrala a 50% din
date indiferent de distributie
• Intervalul (range) este folosit pentru valori numerice pentru a
evidentia valorile extreme
• Coeficientul de variatie este folosit cand se intentioneaza
compararea distributiei numerice masurate pe scale diferite
Teorema limitei centrale
MODUL
- Usor de calculat (nesemnificativ in prezent);
- Poate fi utilizat pentru orice tip de scală;
- Este singurul indicator pentru scale nominale;-
- Corespunde unui scor real al distributiei;
-Poate fi utilizată pe scale ordinale si de interval\raport;
MEDIANA
-Poate fi utilizată si pe distributii de frecventă cu clase deschise sau
scoruri nedeterminate la marginile distributiei;
MEDIA
- Reflectă valorile intregii distributii;
- Are multe proprietăti statistice dezirabile;
- Adecvată pentru utilizare in statistici avansate;
Dezavantajele indicatorilor tendintei centrale
MODUL
- in general, nesigur, mai ales in cazul esantioanelor mici,cand se poate
modifica dramatic la o modificare minoră a unei valori;
- Poate fi gresit interpretat. Se identifică total cu un scor anume, fără a spune
nimic despre celelalte valori;
- Nu poate fi utilizat in statistici inferentiale;
-Poate să nu corespundă unei valori reale (N par);
MEDIANA
- Poate să nu corespundă unei valori reale (N par);
- Nu reflectă valorile distributiei (un scor extrem se poate
modifica, fără a afecta Me);
- Este mai putin sigură in extrapolarea de la esantion la
populatie;
-Greu de utilizat in statistici avansate
MEDIA
- De obicei nu corespunde unei valori reale;
- Nu este tocmai adecvată pentru scale ordinale;
- Conduce la interpretări gresite pe distributii asimetrice
- Poate fi puternic afectată de scorurile extreme;