Documente Academic
Documente Profesional
Documente Cultură
CURS
Tipuri de variabile, indicatori statistici,
distributia Gauss-Laplace
Leucocite
(Globul alb din snge, care are un rol important n 5.000-8.000 /mm 3
protejarea organismului mpotriva microbilor.)
Scala de tip ordinal prezint n plus fa de scala nominal caracteristica de ordonare a claselor
de grupare a datelor. Cu toate acestea, este greu sau imposibil de specificat dimensiunea
distanei sau diferenei dintre clase. De exemplu, este imposibil de cuantificat diferena dintre
clasele (depinde de cel ce apreciaz): foarte frumos, frumos, acceptabil, inacceptabil. Dar dpdv
logic, ordinea lor este clar. Scala ordinal are echivalent numeric.
Scala de tip interval conine trsturile unei scale ordinale i n plus, diferenele dintre clasele
scalei pot fi specificate. O unitate a intervalului scalei are aceeai interpretare, indiferent de clasa
creia i aparine. Cu toate acestea, raportul este imposibil de interpretat. Nu exist punctul de
referin 0 n cadrul acestei scale de msur. Acesta a fost ales doar arbitrar, dup o anumit
logic empiric. De exemplu, n scala Celsius de temperatur, nivelul de 0 a fost definit empiric,
ca punctul de nghe al apei pure. i scala Fahrenheit de msur reprezint un bun exemplu.
Dac temperaturile msurate sunt 300C, respectiv 600C putem afirma c temperatura de 60 este
dublul celei de 30 doar n aceast scal de msur. Raportul nu poate fi corect interpretat. Iat,
300C nseamn 860F, iar 600C nseamn 1400F (F=C*9/5+32, Celsius =Kelvin + 273.15). Raportul
de 2/1 nu se menine i n scara Fahrenheit, cu toate c temperaturile sunt aceleai.
Scala de tip raport are n plus fa de scala interval, definirea concret a originii sistemului de
msur, astfel nct raportul are sens i se poate interpreta. Scara Kelvin este un exemplu corect
n acest sens.
Tc = (5/9)*(Tf-32); Tc = temperatura in grade Celsius, Tf = temperatura in grade Fahrenheit
Tf = (9/5)*Tc+32
Tc=273.15 + Tk; Tk temperatura exprimat in grade Kelvin
Scala Scala Scala
raport interval ordinal Scala
nominal
100.00%
Frecvena relativ cumulat
88.37%
19.38%
74.42%
20%
15.50% 14.73% 13.95% 100%
59.69%
% numr pacieni
13.18%
15%
% numr pacieni
11.63% 11.63% 80%
40.31%
60%
24.81%
10%
11.63%
40%
5%
20%
0% 0%
0-4
5-9
10 - 14
15 - 19
20 - 24
25 - 29
30 - 34
5-9
0-4
10 - 14
15 - 19
20 - 24
25 - 29
30 - 34
Grupa de vrst (ani) Grupa de vrst (ani)
% numr pacieni
11.63% 11.63%
10%
Diagrama cu linii. 5%
0%
0-4
5-9
10 - 14
15 - 19
20 - 24
25 - 29
30 - 34
Grupa de vrst (ani)
13.18% 13.95%
15% 11.63% 11.63%
Poligonul frecvenelor
10%
5%
0%
0-4
5-9
10 - 14
15 - 19
20 - 24
25 - 29
30 - 34
Grupa de vrst (ani)
Indicatori statistici
n studiul distribuiei de frecvene a caracteristicii unei populaii se observ tendine ce prezint dou
aspecte: 1 de localizare (de poziie)
2 de mprtiere (de variaie).
Analiza cantitativ care s permit evaluri i comparaii din punct de vedere al localizrii sau al
mprtierii datelor se poate efectua cu ajutorul indicatorilor statistici. Acetia exprim numeric, pe baza
valorilor de studiu fie localizarea fie variaia datelor.
1. Indicatori statistici de localizare:
n
Mediana
x1 x 2 ... xn
xi Mediana este valoarea de mijloc a
Media aritmetic x i 1
n n irului ordonat (notm n=nr. valori).
Media geometric M G n x1 x2 x3... xn n xi
n
Pt. n impar: Me x( n 1) / 2
Pt n par: Me ( xn / 2 x1 n / 2 ) / 2
i 1
1 n
MH Modul (valoarea modal)
Media armonic 1 1 1 n
1
x1 x2
...
xn xi Fie irul format din elementele x1, x2,
x3, ,xn.
i 1
n Valoarea xi corespunztoare frecvenei
n celei mai mari poart numele de modul.
xi2
Media ptratic i 1
MP x2 Valoarea central
n X max X min
Xc
2
Proprietile caracteristicilor de localizare
Mediile aritmetic i ptratic sunt influenate de valorile mari ale irului.
Mediile geometric i armonic sunt mai puternic influenate de valorile mici ale irului.
Mediana nu este influenat de valorile extreme.
Valoarea central nu depinde de toate valorile irului de date ci numai de cele extreme.
Relaie existent ntre medii: M H MG X M P
Cel mai des indicator de localizare folosit este media aritmetic.
2 - Indicatori de variaie
Acetia reprezint o evaluare numeric a mprtierii datelor. n
x1 x
2
x 2 x ..... xn x
2 2 xi x 2
i 1
2
Dispersia (variana) n n
n
Abaterea ptratic medie sau deviaia standard xi x 2
i 1
D[ x]
n
Amplitudinea (range)
Este definit ca diferena valorilor extreme i se noteaz cu W sau A (n majoritatea cazurilor). Este n fapt
domeniul de variaie al datelor.
W = A = Xmax - Xmin
Intervalul intercuartilic
Cuartilele mpart datele n 4 clase de frecvene egale cu 25%. Astfel sunt necesare 3 valori
notate Q1, Q2, Q3 ce reprezint cuartilele. Intervalul intercuartilic este Q3-Q1. Mediana este
astfel cuartila a 2-a.
Distribuia de frecven
25% 25% 25% 25%
12
10
8
6
4
2
0
Q1 Q2 Q3
parametrul x
Coeficientul de variaie
Abaterea ptratic medie se interpreteaz prin compararea cu media valorilor de studiat. Dac
avem o medie de 100 i o abatere ptratic standard de valoare 5, atunci avem mici variaii, dar
dac avem aceeai abatere la o medie de 10, atunci variaia este mare.
n concluzie se definete coeficientul de variaie:
Cx
Asimetrie - Skewness
Asimetrie dreapta Asimetrie la stnga
Mod Mod
1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 1 4 7 10 13 16 19 22 25 28 31 34 37 40
Scoate n eviden
existena a dou populaii !
Boltirea (Excesul, Kurtosis)
Repartiie aplatizat
Repartiie
Repartiieascuit sau platicurtic
saumezocurtic
medie sau leptocurtic
22 2 33 3
11 3 5
1 33 55 77
7 99 11 13
9 11
13 15 17
11 13 15
15
17 19
19 21 23 25
25 27
21 23 25 27 29
27 29 31
29 31 33
31 33 35
33 35 37
35 37 39
37 39
39
Platicurtic 2 3 , 2 0
Graficul de tip Box-and-Whiskers (sau Box-Plot)
Este o metod ce prezint compact forma distribuiei unui set de date. Se folosete cu succes n
compararea i determinarea simetriei repartiiei determinate de un lot de date (box cutie, whiskers
musti , se refer la extremiti).
Variabila
studiata 1
2
3
4
5
Lot 1 Lot 2 Lot 3
Pentru realizarea graficului (standard Box-Plot) se calculeaz anumii indicatori statistici ce reprezint cele 5
limite.
Mediana este valoarea din cadrul irului ordonat care se afl la jumtatea acestuia. Aceasta mparte setul
de date in dou grupe egale i este reprezentat n grafic de linia notat cu valoarea 3.
Limitele 2 respectiv 4 reprezint valorile cuartilelor. Acestea mpart distribuia de frecven n patru pri
egale. Astfel n total sunt 3 ca numr. Cuartila a doua este chiar mediana (notat cu 3). Diferena dintre
cuartila numit Q3 (notat cu 2 n grafic) i numit Q1(notat cu 4) reprezint intervalul intercuartilic. Acesta
definete lungimea a 50% din setul de date, procent centrat pe median.
Extremele 1 respectiv 5 sunt determinate de cuantile (numite i percentile). Astfel nivelul 5 din grafic va
prezenta cuantila pentru care 10% din date sunt sub aceast valoare, iar nivelul 1 din grafic va reprezenta
valoarea pentru care 90% din date sunt sub acesta (exist i alte forme de reprezentare a extremelor).
Graficul este relevant prin faptul c scoate n eviden nivelul de simetrie al distribuiei. Dac distribuia nu
este simetric mediana nu se va afla la mijlocul dreptunghiului (n cele mai multe cazuri). Mai mult laturile
din afara dreptunghiului nu vor fi de dimensiuni egale.
Simetria este o caracteristic important care poate s ne ajute n determinarea tipului de distribuie.
Repartiia Gauss-Laplace
Este cunoscut faptul c n cadrul unui experiment oricte precauii s-ar lua pentru a controla diferii
factori, rezultatele obinute vor prezenta o anumit variabilitate. Aceast variabilitate este cuprins n
aproape toate domeniile de lucru, obligndu-ne s lucrm cu intervale ale parametrilor de studiu n loc
de valori fixe.
Variabila aleatoare este o noiune fundamental din domeniul statisticii, reprezentnd acea mrime de
interes ce poate lua n cadrul realizrii experimentului o valoare oarecare necunoscut aprioric.
Repartiia Normal (Gauss-Laplace notat N(x,,))
x
2
densitate de probabilitate, x ,
1
f ( x) e 2 2
2
Repartiia Normal depinde de parametrii:
Densitatea de probabilitate -medie i -deviaie standard
x x
f(x) 2
x
1
e 2 dx
2
F ( x) f ( x) dx
Suprafaa total are dimensiunea 1
2
Element de (probabilitatea evenimentului sigur
Funcia de repartiie sau probabilitatea cumulat
probabilitate este 1) x
20
F ( x) f ( x) dx
18
1
Dx 16
14
12
F(a)
10
1 3 5 7 9 11 13
a1 15
a2 17 19 21 23 25 27 29 31 33 35 37 39 8
x
6
4
2
Se noteaz simbolic N(, ) , sau N(x, , ). 0
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45
a
F(x)
0.45 f(x) 20
0.4 1 18
0.35 16
0.3 14
0,682
0.25 12
0.2 0,510
0.15 8
0.1 6
0,954
0.05 4
0,997 2
0
3 2 2 3 0 m
x
2
calcul. i
MP i 1
x2
n
7. Mediana Median() Valoarea de mijloc a irului ordonat
8. Valoarea modal (modul) Mode() Valoarea de frecven maxim
9. Dispersia (pt. populaie) Varp() m
2
x
2
calcul. i
MP i 1
x2
n
7. Mediana Median() Valoarea de mijloc a irului ordonat
8. Valoarea modal (modul) Mode() Valoarea de frecven maxim
9. Dispersia (pt. populaie) Varp() m
x x
2
i
2 i 1
n
10. Dispersia (pt. eantion) Var() m
x x
2
i
2 i 1
n 1
11. Deviaia standard (pt. Stdevp() m
x x
2
populaie) i
i 1
n
12. Deviaia standard (pt. Stdev() m
x x
2
eantion) i
i 1
n 1
13. Calcul cuartile Quartile(domeniu,valoare) Valoarea indic numrul cuartilei
calculate:
0 minimul ; 1 Q1 ; 2 Q2 ; 3 Q3 ;
4 - maximul
14. Intervalul cuartilic Vei calcula diferena. IQ = Q3 Q1
Exemplu crearea histogramei.
Number of
bins
Bin size =
60-55=5
O alt metod de realizare const n utilizarea opiunii Histogram din grupul Data
Analysis
- pentru aceasta mai nti vei defini limitele intervalelor de grupare (bins ranges).
Histograma
30 25
25 20
Frequency
18 16
20
15 11 12 12
10 6 7
4 2 3 0 1
5
0
More
100
105
110
115
95
55
60
65
70
75
80
85
90
Weight
Cteva linkuri utile ce prezint elementele de baz n statistic
https://statistics.laerd.com/statistical-guides/types-of-variable.php
http://onlinestatbook.com/2/normal_distribution/normal_distribution.html
http://stattrek.com/descriptive-statistics/variables.aspx?Tutorial=AP