0% au considerat acest document util (0 voturi)
250 vizualizări33 pagini

Statistica Descriptiva: - Median - Mod

Statistics Tutorials

Încărcat de

George Costea
Drepturi de autor
© © All Rights Reserved
Respectăm cu strictețe drepturile privind conținutul. Dacă suspectați că acesta este conținutul dumneavoastră, reclamați-l aici.
Formate disponibile
Descărcați ca PDF, TXT sau citiți online pe Scribd
0% au considerat acest document util (0 voturi)
250 vizualizări33 pagini

Statistica Descriptiva: - Median - Mod

Statistics Tutorials

Încărcat de

George Costea
Drepturi de autor
© © All Rights Reserved
Respectăm cu strictețe drepturile privind conținutul. Dacă suspectați că acesta este conținutul dumneavoastră, reclamați-l aici.
Formate disponibile
Descărcați ca PDF, TXT sau citiți online pe Scribd

Statistica descriptiva

1. Tendinta centrala

- Media aritmetica
- Median
- Mod

2. Variabilitatea

- Deviatia standard
- Deviatia cvartila
- Domeniul de dispersie
1. Tendinta centrala

Majoritatea seriilor de date au o distributie de frecventa sub forma unui clopot


(se concentreaza in jurul valorii centrale)

Tendinta centrala a unui set de date poate fi exprimat prin:

Media aritmetica a valorilor din setul de date


Medianul setului de date
Modul (clasa modala)

200
180
160
140
Frequency
Distributia de frecventa se obtine 120
prin determinarea frecventei de 100
80
aparitie a unor valori. 60
40
20
0
25 30 35 40 45 50 55 60 65 70 75 80 85

Variable X
Media aritmetica - masura valorii centrale a setului de date in jurul caruia
fluctueaza datele setului
x
x i

n
Proprietati:
- media aritmetica este influentata de valorile extreme
- suma diferentelor dintre valorile individuale ale seriei si medie este
totdeauna zero!
 X  X  0
n

i
i 1

"Media aritmetica modificata" - media aritmetica obtinuta dupa ce s-au exclus


valorile extreme (5%) ce pot denatura valoarea mediei

20  21  22  23  24  25
Ex.: xi = 20; 21; 22; 23; 24; 25 x  22,5
5
Media aritmetica

suma valorilor
media 
numarul lor

suma valorilor:
=B3+B4+B5+B6+B7+B8
sau
=SUM (B3:B8)

functia SUMIF: aduna doar numerele din celulele care indeplinesc un criteriu dat!
numarul valorilor:
=COUNT (B3:B8)

COUNT: numara numai celulele


care contin numere
(numai numere!)

COUNTA: numara celulele


care nu sunt goale
(in celule pot fi si litere!)

COUNTBLANK: numara celulele goale


COUNTIF: numara celulele
care indeplinesc o anumita
conditie.
media aritmetica:
=AVERAGE (B3:B8)
media aritmetica:
=(suma valorilor)/(numarul lor)

Activand bara de functie (dupa selectarea unei celule care contine o formula),
fiecare celula implicata in formula poate fi identificata, datorita codului de culoare!
Medianul - reprezinta valoarea centrala din setul de date ordonat
- se ordoneaza datele si se determina valoarea din mijloc

Daca datele sunt grupate in clase de frecventa, clasa mediana este


cea care contine medianul.

Proprietati:

- medianul nu este afectat de valorile extreme

- medianul poate fi nereprezentativ pentru distributie daca valorile


individuale nu se grupeaza in jurul valorii centrale!
Medianul este: - termenul al (n+1)/2-lea → daca n este impar

- media dintre termenii n/2 si n/2+1 → daca n este par

1
nimpar : M e  X n1 n par : M e  (X n  X n )
2 2 1
2 2

număr impar de date număr par de date

date date date date


brute ordonate brute ordonate
4 1 4 1
2 2 2 2
5 4 5 4
 Medianul
1 5  Medianul 1 5 (4 + 5) / 2 = 4.5
6 5
7 7 7
10 7 10 10
6 10
EXCEL:
- functia MEDIAN calculeaza medianul unui set de date indiferent de numarul lor
Medianul este data care are ordinul egal cu (numarul valorilor)/2
Functia RANK indica ordinul unei anumite valori dintr-un set de date!

Daca vrem sa copiem formula in


celelalte celule, domeniul de
referinta trebuie fixat!

n = impar: medianul este


valoarea ce are ordinul: (N+1)/2

n = par: medianul este media


valorilor ce au ordinul: N/2 si
(N/2+1)
Modul - valoarea ce are cea mai mare frecventa in seria de date.

Daca datele sunt grupate in clase de frecventa, modul corespunde


clasei de frecventa maxima.

Distributie - unimodala (un singur maxim)


- multimodala (mai multe maxime)

200 Clasă modală


180
160
140
Frequency
120
- în cazul datelor nominale 100
vorbim de clasă modală 80
60
40
20
0
25 30 35 40 45 50 55 60 65 70 75 80 85

Variable X
EXCEL: functia MODE

Manual: se ordoneaza
setul de date si se
determina care este
valoarea cea mai
frecventa.
Distributia in frecventa a datelor poate fi analizata folosind Histograma

a) trebuie definit setul de categorii ("bins") in care sa fie grupate valorile

b) se activeaza "unealta" Histogram: "Tools" apoi "Data Analysis

c) se selecteaza setul
de date, setul de
categorii si optiunea
"Chart Output"

Optiunea "Data Analysis" se


instaleaza din meniul "Tools"
selectand "Add Ins.."
2. Variabilitatea

Variabilitatea unui set de date ne spune pe ce domeniu se intinde acel set


de date (cat este de dispersat).

Masura imprastierii (dispersiei) setului de date


- ofera informatii privind extinderea datelor
- este utila in stabilirea reprezentativitatii masurilor de centralitate
- are rol in estimarea parametrilor statistici si in predictia (inferenta) statistica

Variabilitatea unui set de date poate fi exprimata prin:

- Deviatia standard
- Deviatia cvartila
- Domeniul de dispersie
2

 X  X
n
Deviatia standard (s):
i
abatere standard
s i 1
n
- reprezinta "distanta euclidiana" a valorilor fata de media aritmetica

Deviatia standard are aceeasi unitate de masura cu media aritmetica si cu


valorile setului de date.

Varianta (s2): raportul dintre suma patratelor abaterilor (erorilor) de la media


aritmetica a seriei si gradul de libertate (df = n-1).
Unitatea de masura este egala cu patratul unitatii de
2

 X  X
n masura a valorilor setului de date.
2

 X  X
i n

s2  i 1 Daca volumul esantionului "n" i


n -1 este mare (n-1 ≈ n): s2  i 1
n
Pentru un set ce contine un numar mare de date, varianta este patratul deviatiei
standard.
Deviatia standard: se poate calcula prin scrierea formulei sau folosind
functia dedicata!

2 functia radical: SQRT() pentru rotunjire:


 X  X
n

i ROUND()
ridicarea la patrat: ^2
s i 1 ROUNDUP()
n functia suma: SUM() ROUNDDOWN()

Varianta:
2

 X  X
n

i
s2  i 1
n -1
calcul manual
2

 X  X
n

i
s2  i 1
n
Deviatia standard EXCEL: functia STDEVP
Varianta EXCEL: functia VARP
Deviatia cvartila (DQ): măsoară dispersia datelor aflate in zona de mijloc a
distribuţiei
DQ = (Q3-Q1)/2

Mod de calcul:
- se ordonează datele
- se calculează - valoarea mediana a jumătăţii superioare (Q3=UQ: upper quartile)
- valoarea mediana a jumătăţii inferioare (Q1=LQ: lower quartile)

EXCEL: functia QUARTILE

Indicatori de localizare:
Primul cvartil (Q1) - valoare mai mare (sau egala) decat 25% din datele seriei.
Al doilea cvartil (Q2) - este reprezentat de mediana (50% din datele seriei).
Al treilea cvartil (Q3) - valoare mai mare (sau egala) decat 75% din datele seriei.
nr. crt. Valori nesortate Valori ordonate
1 25 14 LL sau Q0 (min)
2 27 16
3 20 16
4 23 18
5 26 19
6 24 20 LQ sau Q1
7 19 20
8 16 21
9 25 23
10 18 24
11 30 24 Md sau Q2
12 29 25
13 32 25
14 26 26
15 24 26
16 21 27 UQ sau Q3
17 28 27
18 27 28
19 20 29
20 16 30
21 14 32 UL sau Q4 (max)

UL – Upper limit LL – Lower limit


Deviatia cvartila EXCEL: functia QUARTILE
Domeniul de dispersie (DD):

DD = Xmax-Xmin

Xmax valoarea maxima din setul de date (UL - upper limit)


(EXCEL: functia MAX)

Xmin valoarea minima din setul de date (LL - lower limit)


(EXCEL: functia MIN)

Dezavantaj: se bazeaza doar pe valorile extreme.


Domeniul de dispersie:
DD = Xmax-Xmin

minimul unui set de date:


functia MIN

maximul unui set de date:


functia MAX
Coeficientul de variatie (CV) – este o masura relativa a dispersiei datelor.
CV reprezinta evaluarea deviatiei standard in raport cu media aritmetica.

s
CV 
x

Proprietati:
- CV este independent de unitatile de masura
- CV se foloseste pentru compararea variabilitatii relative a doua seturi de date
- CV intervine in studiul omogenitatii unor populatii:
CV <10% populatie omogena
10% < CV < 20% populatie relativ omogena
20% < CV < 30% populatie relativ eterogena
30% < CV populatie eterogena
Eroarea standard (ES):

se foloseste in inferenta statistica in determinarea intervalelor de


incredere pentru medie.

s
ES 
n

EXCEL: functia SQRT (radacina patrata), ^2 (patrat)


Asimetria (Skewness):
reprezinta abaterea de la aspectul simetric al distributiei de frecventa.

 xi  x 
n 3

  
 3  i 1  
s
n

3 = 0 distributie simetrica
3 > 0 distributie cu coada spre dreapta
3 < 0 distributie cu coada spre stanga

EXCEL: functia SKEW


Boltirea (Kurtosis): reprezinta aplatizarea/inaltimea unei distributii in raport cu o
distributie normala.
 xi  x 
n 4

 
i 1  s 

4 = 0 distributie normala 4  3
n
4 > 0 distributie mai inalta decat cea normala
4 < 0 distributie mai joasa

EXCEL: functia KURT


Importanta statistica a deviatiei standard

Pentru a prezice numarul (procentul) datelor cuprinse intre 2 valori simetrice


in jurul mediei, se foloseste teorema lui Cebasev:
Fractiunea de date cuprinse intre limitele ( x  k  s, x  k  s ) cu k > 1 va fi
cel putin egala cu (1 - 1/k2)
(s - deviatia standard, x - media aritmetica)

Ex: proportia datelor situate de o parte si de alta a mediei la 3 deviatii


standard (k = 3) este egala sau mai mare decat (1-1/9) = 8/9 = 0,89. Deci cel putin
89% dintre date vor fi situate de o parte si de alta a mediei la 3 deviatii standard

Daca distributia este reprezentata prin curba lui Gauss (distributie


normala), media aritmetica, mediana si modul au aceleasi valori.
In acest caz sunt adevarate urmatoarele afirmatii:
- in intervalul x 1 s se gasesc 68,3 % din valorile seriei
- in intervalul x  2 s se gasesc 95,5 % din valorile seriei
- in intervalul x  3 s se gasesc 99,7 % din valorile seriei
Tema nr colesterol colesterol
initial final
P1. Pentru evaluarea eficacitatii unui regim
dietetic vegetarian asupra nivelului seric al 1 195 146
colesterolului, s-a realizat un studiu pe un esantion de 2 145 155
20 persoane, care a furnizat urmatoarele date: 3 205 178
4 159 146
5 244 208
a) Calculati media diferentei nivelului colesterolului in 6 166 147
urma curei vegetariene 7 250 202
8 236 215
b) Calculati varianta si deviatia standard a nivelului
colesterolului in urma curei vegetariene 9 192 184
10 224 208
c) Calculati mediana diferentei nivelului colesterolului 11 238 206
in urma curei vegetariene 12 197 169
d) Stabiliti gradul de omogenitate al esantionului din 13 169 182
punctul de vedere al nivelului colesterolului inainte de 14 158 127
regimul dietetic. 15 151 149
16 197 178
17 180 161
18 222 187
19 168 176
20 168 145
Tema

P2. Urmatoarele date reprezinta varsta inbolnavirii (in ani) de o boala "A"
in 30 cazuri de aparitie a acestei boli (selectate aleator):
26, 45, 71, 51, 40, 51, 62, 63, 36, 54, 43, 67, 45, 34, 44, 52, 48, 55, 57, 43, 54, 47,
39, 50, 33, 40, 55, 29, 45, 42.

a) Calculati cu o zecimala urmatoarele statistici: mediana, modul, media aritmetica,


domeniul de dispersie, deviatia cvartala, varianta, deviatia standard, coeficientul
de variatie

b) Cate din observatii cad in afara urmatoarelor intervale:

x 1 s
x  2 s

c) Determinati nivelul de omogenitate al esantionului din punctul de vedere al


varsei de imbolnavire.

S-ar putea să vă placă și