Sunteți pe pagina 1din 26

BIOSTATISTICA

CURS
Tipuri de variabile, indicatori statistici,
distributia Gauss-Laplace

Conf.dr. Lucian Boiculese


VARIABILIATATEA DATELOR MEDICALE

Eritrocite F: 4.200.000-5.000.000 /mm 3


(Celul sangvin de culoare roie, care transport B: 4.500.000-5.500.000 /mm 3
oxigenul i bioxidul de carbon n organism; globul Copil la nastere: 4.500.000-6.000.000
roie) /mm 3

Leucocite
(Globul alb din snge, care are un rol important n 5.000-8.000 /mm 3
protejarea organismului mpotriva microbilor.)

Segmentate 2.500-5.500 /mm 3


Neutrofile
Nesegmentate 50-250 /mm 3
Granulocite

Eozinofile 100-200 /mm 3


Bazofile 20-40 /mm 3
Limfocite 1.200-2.400 /mm 3
Monocite 300-640 /mm 3
Trombocite 150.000-300.000 /mm 3

Glicemia (a jeun) normala: 70-110 mg/dl


Statistica motivaie
Statistica analiza probabilitii:
1 variaia intrinsec (imanent) a datelor,
2 studiul eantionului (informaie parial) => concluzii aplicate pe ntreaga
populaie.
Tipuri de date
Datele culese experimental urmeaz a fi analizate conform metodelor statistice. Datele se culeg n
general dintr-o populaie statistic sau colectivitate statistic. Elementele populaiei sunt uniti
statistice sau indivizi. La un anumit moment ne intereseaz o trstur comun a indivizilor, numit
variabil sau caracteristic.
Variabilele pot fi cantitative (i se exprim numeric prin valoarea numeric msurat sau dedus
experimental) sau calitative (categoriale,atributive). Acestea din urm se pot exprima prin atribute,
i nu li se pot echivala valori numerice. Ex: grupa de snge, genul, apartenena politic, culorile.
n sens propriu valorile numerice pot fi ordonate caracteristic ce nu exist la variabilele calitative.
Variabilele cantitative pot fi mprite n continuare n variabile discrete i continue. Un exemplu de
variabil discret ar fi numrul de nou nscui pe zi la o anumit maternitate. Un exemplu de
variabil continu este nlimea persoanelor.
n general informaiile ce se culeg sunt numai de la o parte din indivizi, nu din ntreaga populaie.
Aceasta este o cercetare selectiv. Aceti indivizi formeaz eantionul sau selecia de lucru.
SCALE DE MSUR
Pentru a msura o variabil de tip categorial se folosesc scale nominale. Acestea vor defini
grupurile sau categoriile existente prin asignarea unor nume. Nefiind informaie de tip cantitativ
este imposibil de realizat ordonarea acestora. De interes practic i posibil de studiat sunt
frecvenele de apariie a categoriilor definite (anticipm aici i menionm c modul sau indicatorul
statistic valoare modal poate prezenta interes n acest caz).
Exemple: afilierea politic, preferina religioas, culoarea ochilor, starea civil etc.

Datele sau variabilele de tip cantitativ se caracterizeaz prin variaie n magnitudine, de la


element la element. Astfel, acestea pot fi ordonate, nct relaii de genul mai mic sau mai mare
au sens n acest context. Dup fineea pasului de evaluare a relaiei mai mare sau mai mic,
putem mpri variabilele cantitative n discrete i continue.
O variabil discret poate lua valori numrabile sau izolate, cum ar fi: numrul de note de 10 la
examenul de admitere, sau numrul de nou nscui ntr-o zi la o maternitate.
O variabil de tip continuu poate lua orice valoare dintr-un interval definit. Spre exemplu
temperatura, valoarea presiunii arteriale, sau nlimea unei persoane au valori de tip continuu.
Evident, precizia de msurare depinde de utilitatea informaiei, astfel nct putem afirma c
valoarea msurat cu o exactitate de o zecimal este suficient n exprimarea temperaturii,
folosind scara Celsius de msur.
Variabilele de tip cantitativ folosesc trei scale (scri) de msur: ordinal, interval i raport.

Scala de tip ordinal prezint n plus fa de scala nominal caracteristica de ordonare a claselor
de grupare a datelor. Cu toate acestea, este greu sau imposibil de specificat dimensiunea
distanei sau diferenei dintre clase. De exemplu, este imposibil de cuantificat diferena dintre
clasele (depinde de cel ce apreciaz): foarte frumos, frumos, acceptabil, inacceptabil. Dar dpdv
logic, ordinea lor este clar. Scala ordinal are echivalent numeric.
Scala de tip interval conine trsturile unei scale ordinale i n plus, diferenele dintre clasele
scalei pot fi specificate. O unitate a intervalului scalei are aceeai interpretare, indiferent de clasa
creia i aparine. Cu toate acestea, raportul este imposibil de interpretat. Nu exist punctul de
referin 0 n cadrul acestei scale de msur. Acesta a fost ales doar arbitrar, dup o anumit
logic empiric. De exemplu, n scala Celsius de temperatur, nivelul de 0 a fost definit empiric,
ca punctul de nghe al apei pure. i scala Fahrenheit de msur reprezint un bun exemplu.
Dac temperaturile msurate sunt 300C, respectiv 600C putem afirma c temperatura de 60 este
dublul celei de 30 doar n aceast scal de msur. Raportul nu poate fi corect interpretat. Iat,
300C nseamn 860F, iar 600C nseamn 1400F (F=C*9/5+32, Celsius =Kelvin + 273.15). Raportul
de 2/1 nu se menine i n scara Fahrenheit, cu toate c temperaturile sunt aceleai.
Scala de tip raport are n plus fa de scala interval, definirea concret a originii sistemului de
msur, astfel nct raportul are sens i se poate interpreta. Scara Kelvin este un exemplu corect
n acest sens.
Tc = (5/9)*(Tf-32); Tc = temperatura in grade Celsius, Tf = temperatura in grade Fahrenheit
Tf = (9/5)*Tc+32
Tc=273.15 + Tk; Tk temperatura exprimat in grade Kelvin
Scala Scala Scala
raport interval ordinal Scala
nominal

Interpretarea este n sensul urmtor: oricnd o variabil ce poate fi msurat pe o scal


ordinal poate fi tratat ca o variabil de scal nominal, dar o parte din informaie va fi pierdut i
astfel avem anse s fim deficitari n concluziile obinute.

Dup legtura existent ntre variabile, acestea se mpart n dependente, respectiv


independente.
Variabile independente (sau factori sau covariabile) pot fi n cadrul unui experiment manipulate
de cercettor. Prin modificarea valorilor acestora, ca urmare a legturilor existente, se modific i
variabilele dependente .
Y = f(X) , Y este variabila dependent, X variabila independent (sau factor).
Grupa de Frecvena Frecvena Frecvena absolut Frecvena relativ
Reprezentarea datelor statistice vrst absolut (ai) relativ (fi) cumulat (Ai) cumulat (Fi)
0-4 15 0.1163 15 0.1163
5-9 17 0.1318 32 0.2481
FRECVENE 10 - 14 20 0.1550 52 0.4031
15 - 19 25 0.1938 77 0.5969
20 - 24 19 0.1473 96 0.7442
25 - 29 18 0.1395 114 0.8837
30 - 34 15 0.1163 129 1
Total 129 1
Numrul indivizilor ce aparin unui anumit interval (sau clas) formeaz frecvena
absolut notat a1, a2, am (m numrul de clase ce este de obicei mai mic ca n
numrul de indivizi). m
Avem relaia:
aj n , unde :
j 1
aj frecvena absolut a clasei j.
Pentru eantioane mari frecvena relativ
tinde ctre probabilitatea evenimentului
m numrul de clase.
studiat LEGEA NUMERELOR MARI.
n numrul de indivizi (sau N).
Frecvena relativ fi se obine raportnd frecvena absolut aj la numrul de
indivizi. m m
aj n
i avem relaia: fj n n 1
aj
fj
n j 1 j 1

Frecvena cumulat este numrul de indivizi cumulai pn la o anumit valoare a


variabilei de studiu.
La rndul ei frecvena cumulat poate fi absolut i relativ. Pentru frecvenele
cumulate se folosesc de obicei pentru identificare literele mari.
HISTOGRAMA
Distribuia pacienilor dup vrst

100.00%
Frecvena relativ cumulat

88.37%
19.38%

74.42%
20%
15.50% 14.73% 13.95% 100%

59.69%
% numr pacieni

13.18%
15%

% numr pacieni
11.63% 11.63% 80%

40.31%
60%

24.81%
10%

11.63%
40%
5%
20%
0% 0%
0-4

5-9

10 - 14

15 - 19

20 - 24

25 - 29

30 - 34

5-9
0-4

10 - 14

15 - 19

20 - 24

25 - 29

30 - 34
Grupa de vrst (ani) Grupa de vrst (ani)

Histograma - Este reprezentarea sub form grafic


Densitatea de probabilitate folosind dreptunghiuri a frecvenelor relative. n mod
f(a)
obinuit intervalele de grupare sunt egale ca
Suprafaa total are
Element de dimensiunea 1 dimensiune. Ideea de baz este de a reprezenta o
densitate a frecvenei (frecvena raportat la lungimea
grupei) pentru a scoate n eviden distribuia datelor.
Da
Putem reprezenta grafic frecvenele absolute, relative i
1 3 5 7 9 11 13a1 15 17 19 21 23 25 27 29 31 33 35 37 39
a
cumulate.
Forma graficului ce reprezint frecvena absolut
seaman cu cel ce reprezint frecvena relativ ?
Eantionul este finit ca dimensiune i poate exprima o variabil cu domeniu finit. Aceasta este
apoi interpretat folosind curba Gauss-Laplace ce se defnete pe un domeniu infinit, cum este
posibil acest lucru ?
Exist diferite forme de reprezentare grafic ce scot n eviden distribuia datelor.
Gruparea datelor se face astfel nct numrul de clase s fie ntre 12 respectiv 20 (ca valori
empirice).
O alt form de reprezentare grafic este Diagrama cu linii. n locul barelor se traseaz linii
verticale.
Distribuia pacienilor
19.38%
dup vrst
20%
15.50% 14.73%
13.18% 13.95%
15%

% numr pacieni
11.63% 11.63%

10%

Diagrama cu linii. 5%

0%
0-4

5-9

10 - 14

15 - 19

20 - 24

25 - 29

30 - 34
Grupa de vrst (ani)

Poligonul frecvenelor se definesc punctele corespunztoare centrului intervalului i


corespunztor frecvenelor se unesc punctele respective prin linii. Centrul intervalului se mai
numete i punctul median al clasei i este semisuma limitelor fiecrei clase.
25%
Distribuia pacienilor dup vrst
19.38%
20%
15.50% 14.73%
% numr pacieni

13.18% 13.95%
15% 11.63% 11.63%
Poligonul frecvenelor
10%

5%

0%
0-4

5-9

10 - 14

15 - 19

20 - 24

25 - 29

30 - 34
Grupa de vrst (ani)
Indicatori statistici
n studiul distribuiei de frecvene a caracteristicii unei populaii se observ tendine ce prezint dou
aspecte: 1 de localizare (de poziie)
2 de mprtiere (de variaie).
Analiza cantitativ care s permit evaluri i comparaii din punct de vedere al localizrii sau al
mprtierii datelor se poate efectua cu ajutorul indicatorilor statistici. Acetia exprim numeric, pe baza
valorilor de studiu fie localizarea fie variaia datelor.
1. Indicatori statistici de localizare:
n
Mediana
x1 x 2 ... xn
xi Mediana este valoarea de mijloc a
Media aritmetic x i 1
n n irului ordonat (notm n=nr. valori).
Media geometric M G n x1 x2 x3... xn n xi
n
Pt. n impar: Me x( n 1) / 2
Pt n par: Me ( xn / 2 x1 n / 2 ) / 2
i 1
1 n
MH Modul (valoarea modal)
Media armonic 1 1 1 n
1

x1 x2
...
xn xi Fie irul format din elementele x1, x2,
x3, ,xn.
i 1
n Valoarea xi corespunztoare frecvenei
n celei mai mari poart numele de modul.
xi2
Media ptratic i 1
MP x2 Valoarea central
n X max X min
Xc
2
Proprietile caracteristicilor de localizare
Mediile aritmetic i ptratic sunt influenate de valorile mari ale irului.
Mediile geometric i armonic sunt mai puternic influenate de valorile mici ale irului.
Mediana nu este influenat de valorile extreme.
Valoarea central nu depinde de toate valorile irului de date ci numai de cele extreme.
Relaie existent ntre medii: M H MG X M P
Cel mai des indicator de localizare folosit este media aritmetic.

2 - Indicatori de variaie
Acetia reprezint o evaluare numeric a mprtierii datelor. n

x1 x
2
x 2 x ..... xn x
2 2 xi x 2
i 1
2
Dispersia (variana) n n
n
Abaterea ptratic medie sau deviaia standard xi x 2
i 1
D[ x]
n
Amplitudinea (range)
Este definit ca diferena valorilor extreme i se noteaz cu W sau A (n majoritatea cazurilor). Este n fapt
domeniul de variaie al datelor.
W = A = Xmax - Xmin
Intervalul intercuartilic
Cuartilele mpart datele n 4 clase de frecvene egale cu 25%. Astfel sunt necesare 3 valori
notate Q1, Q2, Q3 ce reprezint cuartilele. Intervalul intercuartilic este Q3-Q1. Mediana este
astfel cuartila a 2-a.
Distribuia de frecven
25% 25% 25% 25%

12
10
8
6
4
2
0
Q1 Q2 Q3
parametrul x

Coeficientul de variaie
Abaterea ptratic medie se interpreteaz prin compararea cu media valorilor de studiat. Dac
avem o medie de 100 i o abatere ptratic standard de valoare 5, atunci avem mici variaii, dar
dac avem aceeai abatere la o medie de 10, atunci variaia este mare.
n concluzie se definete coeficientul de variaie:
Cx

Asimetrie - Skewness
Asimetrie dreapta Asimetrie la stnga

Mod Mod

1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 1 4 7 10 13 16 19 22 25 28 31 34 37 40

n modul tradiional (exist mai multe moduri) de definire a asimetriei avem:


1 Dac Sk>0 , avem asimetrie pozitiv sau la dreapta (media >Mo valoarea modal).
2 Dac Sk<0 , avem asimetrie negativ sau la stnga (media < Mo valoarea modal).
3 Dac Sk=0 , avem simetrie (distribuia normal are asimetria 0, M(x)=Mo).
n general o distribuie ce are valoarea Sk diferit de 0 cu mai mult de un punct, denot o
diferen semnificativ fa de distribuia normal.
Bimodal Multimodal
Unimodal

Scoate n eviden
existena a dou populaii !
Boltirea (Excesul, Kurtosis)

Repartiie aplatizat
Repartiie
Repartiieascuit sau platicurtic
saumezocurtic
medie sau leptocurtic
22 2 33 3

11 3 5
1 33 55 77
7 99 11 13
9 11
13 15 17
11 13 15
15
17 19
19 21 23 25
25 27
21 23 25 27 29
27 29 31
29 31 33
31 33 35
33 35 37
35 37 39
37 39
39

Avem urmtoarele modaliti de caracterizare a distribuiilor:


Mezocurtic 2 3 , 2 0
Leptocurtic 2 3 , 2 0

Platicurtic 2 3 , 2 0
Graficul de tip Box-and-Whiskers (sau Box-Plot)
Este o metod ce prezint compact forma distribuiei unui set de date. Se folosete cu succes n
compararea i determinarea simetriei repartiiei determinate de un lot de date (box cutie, whiskers
musti , se refer la extremiti).

Variabila
studiata 1
2
3
4
5
Lot 1 Lot 2 Lot 3

Pentru realizarea graficului (standard Box-Plot) se calculeaz anumii indicatori statistici ce reprezint cele 5
limite.
Mediana este valoarea din cadrul irului ordonat care se afl la jumtatea acestuia. Aceasta mparte setul
de date in dou grupe egale i este reprezentat n grafic de linia notat cu valoarea 3.
Limitele 2 respectiv 4 reprezint valorile cuartilelor. Acestea mpart distribuia de frecven n patru pri
egale. Astfel n total sunt 3 ca numr. Cuartila a doua este chiar mediana (notat cu 3). Diferena dintre
cuartila numit Q3 (notat cu 2 n grafic) i numit Q1(notat cu 4) reprezint intervalul intercuartilic. Acesta
definete lungimea a 50% din setul de date, procent centrat pe median.
Extremele 1 respectiv 5 sunt determinate de cuantile (numite i percentile). Astfel nivelul 5 din grafic va
prezenta cuantila pentru care 10% din date sunt sub aceast valoare, iar nivelul 1 din grafic va reprezenta
valoarea pentru care 90% din date sunt sub acesta (exist i alte forme de reprezentare a extremelor).
Graficul este relevant prin faptul c scoate n eviden nivelul de simetrie al distribuiei. Dac distribuia nu
este simetric mediana nu se va afla la mijlocul dreptunghiului (n cele mai multe cazuri). Mai mult laturile
din afara dreptunghiului nu vor fi de dimensiuni egale.
Simetria este o caracteristic important care poate s ne ajute n determinarea tipului de distribuie.
Repartiia Gauss-Laplace
Este cunoscut faptul c n cadrul unui experiment oricte precauii s-ar lua pentru a controla diferii
factori, rezultatele obinute vor prezenta o anumit variabilitate. Aceast variabilitate este cuprins n
aproape toate domeniile de lucru, obligndu-ne s lucrm cu intervale ale parametrilor de studiu n loc
de valori fixe.
Variabila aleatoare este o noiune fundamental din domeniul statisticii, reprezentnd acea mrime de
interes ce poate lua n cadrul realizrii experimentului o valoare oarecare necunoscut aprioric.
Repartiia Normal (Gauss-Laplace notat N(x,,))
x
2

densitate de probabilitate, x ,
1
f ( x) e 2 2
2
Repartiia Normal depinde de parametrii:
Densitatea de probabilitate -medie i -deviaie standard
x x
f(x) 2
x
1
e 2 dx
2
F ( x) f ( x) dx
Suprafaa total are dimensiunea 1
2
Element de (probabilitatea evenimentului sigur
Funcia de repartiie sau probabilitatea cumulat
probabilitate este 1) x

20
F ( x) f ( x) dx

18
1
Dx 16
14
12
F(a)

10
1 3 5 7 9 11 13
a1 15
a2 17 19 21 23 25 27 29 31 33 35 37 39 8
x
6
4
2
Se noteaz simbolic N(, ) , sau N(x, , ). 0
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45

a
F(x)

0.45 f(x) 20
0.4 1 18
0.35 16
0.3 14
0,682
0.25 12
0.2 0,510
0.15 8
0.1 6
0,954
0.05 4
0,997 2
0
3 2 2 3 0 m

Funcia densitate de probabilitate Funcia de probabilitate (cumulat)


Proprietile repartiiei normale

1. Distribuia admite un singur maxim fiind astfel unimodal. Maximul se atinge n


1
punctul x= i are valoarea f ( ) (n acest punct derivata este zero
* 2 *
df/dx=0).
2. Este simetric n raport cu dreapta x=. n orice repartiie normal mediana i
modul coincid cu media aritmetic. Datorit simetriei suprafaa cuprins ntre
curba densitii de probabilitate i axa xx pe intervalul , este egal cu cea
din intervalul , i are valoarea 1/2. Evident suprafaa total[ are valoarea 1
reprezentnd probabilitatea evenimentului sigur.
Suprafaa cuprins ntre dreptele x=- , x=+ , x=0 i curba densitii de
probabilitate este egal cu 0,682. Conform calculelor i reprezentrii grafice
majoritatea cazurilor n proporie de peste 95% se afl n intervalul (-2 , +2 )
1. Punctele de pe abscis de valoare + respectiv de valoare - sunt puncte de
inflexiune. n acestea curba densitii de probabilitate i modific convexitatea.
d 2 f ( x)
Astfel derivata a doua este zero. 2
0.
d x x
n punctele x i x funcia f(x) tinde la zero.
Are form de clopot de unde i denumirea de clopotul lui Gauss.
2. Asimetria i boltirea
aplatisarea pentru o repartiie normal au valoarea 0. De asemenea
momentele centrate de ordin impar sunt nule pentru o astfel de repartiie
(diferenele ntre xi i medie i pstreaz semnul).
3. Modificarea mediei duce la o translare a curbei pe direcia axei xx. Iat un
exemplu realizat n graficul urmtor.

Avem relaia ntre medii: 1 2 3


Dispersiile sunt egale: 1 2 3
Densitile de probabilitate pentru medii diferite dar Densitile de probabilitate pentru medii egale dar
aceleai dispersii dispersii diferite
f(x) f(x)
9.00E-01
1.2 8.00E-01 s1
1 7.00E-01
6.00E-01 s1<s2<s3 s2
0.8 5.00E-01
4.00E-01
0.6
3.00E-01
s3
0.4 2.00E-01
0.2 1.00E-01
0.00E+00
0 m
m1 m2 m3

Pentru situaia n care =0 i =1 avem distribuia standardizat. Practic orice distribuie de


tip Gauss poate fi standardizat prin transformarea de variabil: Z=(x-)/.
Astfel cu Z se noteaz forma standardizat a distribuiei Gauss-Laplace este N(0,1).
Exemplu de normalizare deci transformare a mediei =0 i a deviaiei standard =1.
Formula aplicat: Z=(x-)/. Deci fiecare valoare suport transformarea aceasta.
Astfel cu Z se noteaz forma standardizat a distribuiei Gauss-Laplace este N(0,1).

Curba normalizat este desenat cu albastru.


Curba nenormalizat este desenat cu rou.

Se calculeaz media i deviaia standard


a setului iniial de date.

Se creeaz o nou coloan (n Excel) cu


valorile normalizate (din fiecare valoare se
scade media i apoi se mparte la deviaia
standard).

n acest exemplu am sczut media =6 i am


mprit la deviaia standard =0.7 (ce
caracterizeaz curba desenat cu rou).

Efectul este prezentat n figura de mai sus.


Exemplu de calcul al probabilitii pe interval
S presupunem c ne intereseaz s caracterizm calitatea studenilor din anul 6 de studiu la facultatea de
medicin, prin determinarea probabilitii pe grupele de calificative folosite. Probabilitatea va reflecta practic
frecvena de apariie a unei grupe din cadrul calificativelor. Tabelul urmtor definete legtura ntre aprecierea
calitativ i notele obinute n sistem zecimal: Not obinut Calificativ
8.5 - 10 A
Se presupune c distribuia respect legea
6.5 8.4 B
Gauss Laplace. Se cunoate media pe lotul de studiu
=7.8 i de asemenea, deviaia standard =0.8 5.5 6.4 C
5 5.4 D
Pentru determinarea probabilitii vom folosi Sub 5 E
funcia NORMDIST(x,mean,st_dev,cumulative) din
Microsoft Excel. Acasta ne ajut s calculm densitatea Densitatea de probabilitate f(x)
de probabilitate sau probabilitatea cumulat pentru o
Probabilitatea de a
distribuie normal. Parametrul cumulative al funciei obine calificativul A
poate lua 2 valori: TRUE sau FALSE (sau 1 respectiv 0). este 1-0.809= 0.191
TRUE (sau 1) implic calculul probabilitii
cumulate (suprafaa deci F(x)), FALSE (sau 0) implic
calculul densitii de probabilitate (f(x)).
Pentru cazul x=8.5 avem (deci descriem
calificativul A): NORMDIST(8.5,7.8,0.8,1)=0.809. Astfel
probabilitatea de a obine un calificativ A este de 1-0.809
= 0.191.
Pentru a obine calificativul B probabilitatea este: x 2
NORMDIST(8.5,7.8,0.8,1)- 1
NORMDIST(6.5,7.8,0.8,1)=0.809-0.052=0.757
f ( x ) e 2 2
2
Nr. Indicator statistic Funcie Excel Descriere / formula
1. Media aritmetic Average() Media setului selectat
Averageif() Media seleciei pentru celulele ce
indeplinesc o singur condiie.
Averageifs() Media seleciei pentru condiii
multiple.
2. Media aritmetic ajustat. Trimmean(domeniu,procent) Se calculeaz media aritmetic
eliminnd din setul de date procentul
specificat din valorile extreme att
minim ct i maxim. Vor rmne :
100% 2 . .
3. Media armonic Harmean() n
MH n
1

i 1 x i
4. Media cronologic Vei propune o metod de X 1 X ... X X n
calcul. 2 2 n 1 2
MC
n 1
5. Media geometric Geomean() n
MG n
x i 1
i

6. Media ptratic Vei propune o metod de n

x
2
calcul. i
MP i 1
x2
n
7. Mediana Median() Valoarea de mijloc a irului ordonat
8. Valoarea modal (modul) Mode() Valoarea de frecven maxim
9. Dispersia (pt. populaie) Varp() m
2
x
2
calcul. i
MP i 1
x2
n
7. Mediana Median() Valoarea de mijloc a irului ordonat
8. Valoarea modal (modul) Mode() Valoarea de frecven maxim
9. Dispersia (pt. populaie) Varp() m

x x
2
i

2 i 1

n
10. Dispersia (pt. eantion) Var() m

x x
2
i
2 i 1

n 1
11. Deviaia standard (pt. Stdevp() m

x x
2
populaie) i
i 1

n
12. Deviaia standard (pt. Stdev() m

x x
2
eantion) i
i 1

n 1
13. Calcul cuartile Quartile(domeniu,valoare) Valoarea indic numrul cuartilei
calculate:
0 minimul ; 1 Q1 ; 2 Q2 ; 3 Q3 ;
4 - maximul
14. Intervalul cuartilic Vei calcula diferena. IQ = Q3 Q1
Exemplu crearea histogramei.

1 Determinai minimul i maximul setului de date:


- o metod const n utilizarea matodei Descriptive Statistics;
- sau putei folosi funciile min() i max() din Excel.

2 Calculai numrul de grupe (numite bins):


- forluma Sturges : k log2 (n) 1
Excel: LOG(number, [base])

Funcia LOG conine urmtoarele argumente:


Number - strict necesar. Numrul real pozitiv pentru care se
calculeaz logaritmul;
Base - Opional. Baza logaritmului, dac aceasta este omis se
presupune implicit a fi 10.
max min
3 Determinai limea intervalului de grupare: h ;
k
4 Calculai numrul de valori pentru fiecare grup sau clas;

5 Realizai graficul de tip coloan pentru frecvenele relative (se accept i


celeabsolute).
Nu exist un numr ideal (perfect) de intervale de grupare astfel histograma va
prezenta diferite trsturi ale datelor funcie de acest numr.

Number of
bins
Bin size =
60-55=5
O alt metod de realizare const n utilizarea opiunii Histogram din grupul Data
Analysis
- pentru aceasta mai nti vei defini limitele intervalelor de grupare (bins ranges).

Histograma
30 25
25 20
Frequency

18 16
20
15 11 12 12
10 6 7
4 2 3 0 1
5
0

More
100
105
110
115
95
55
60
65
70
75
80
85
90
Weight
Cteva linkuri utile ce prezint elementele de baz n statistic

https://statistics.laerd.com/statistical-guides/types-of-variable.php

http://onlinestatbook.com/2/normal_distribution/normal_distribution.html

http://stattrek.com/descriptive-statistics/variables.aspx?Tutorial=AP

S-ar putea să vă placă și