Sunteți pe pagina 1din 28

CURS 5

INFORMATICĂ MEDICALĂ ŞI BIOSTATISTICĂ

TIPURI DE VARIABILE. INDICATORI STATISTICI.


DISTRIBUTIA GAUSS-LAPLACE.

Conf. Dr. Lucian V. Boiculese


Conf. Dr. Mihaela Moscalu
OBIECTIVE

TIPURI DE VARIABILE.
INDICATORI STATISTICI.
DISTRIBUTIA GAUSS-LAPLACE.
VARIABILIATATEA DATELOR MEDICALE

Eritrocite F: 4.200.000-5.000.000 /mm 3


(Celulă sangvină de culoare roșie, care transportă B: 4.500.000-5.500.000 /mm 3
oxigenul și bioxidul de carbon în organism; globulă Copil la nastere: 4.500.000-6.000.000
roșie) /mm 3

Leucocite
(Globulă albă din sânge, care are un rol important 5.000-8.000 /mm 3
în protejarea organismului împotriva microbilor.)
Segmentate 2.500-5.500 /mm 3
Neutrofile
Nesegmentate 50-250 /mm 3
Granulocite Eozinofile 100-200 /mm 3
Bazofile 20-40 /mm 3
Limfocite 1.200-2.400 /mm 3
Monocite 300-640 /mm 3
Trombocite 150.000-300.000 /mm 3
Glicemia – (a jeun) normala:70-110 mg/dl
STATISTICA – ANALIZA PROBABILITĂŢII

1 – VARIAŢIA INTRINSECĂ (IMANENTĂ) A DATELOR,


2 – STUDIUL EŞANTIONULUI (INFORMAȚIE PARȚIALĂ) => CONCLUZII APLICATE PE ÎNTREAGA POPULAŢIE.
TIPURI DE DATE

Datele culese experimental urmează a fi analizate conform metodelor statistice.Datele se culeg în general dintr-o
populaţie statistică sau colectivitate statistică. Elementele populaţiei sunt unităţi statistice sau indivizi.

La un anumit moment ne interesează o trăsătură comună a indivizilor, numită variabilă sau caracteristică.

Variabilele pot fi cantitative (şi se exprimă numeric prin valoarea numerică măsurată sau dedusă experimental) sau
calitative (categoriale,atributive). Acestea din urmă se pot exprima prin atribute. Ex: grupa de sânge, genul,
apartenenţa politică, culorile.

În sens propriu valorile numerice pot fi ordonate – caracteristică ce nu există la variabilele calitative.
Variabilele cantitative pot fi împărţite în continuare în variabile discrete şi continue. Un exemplu de variabilă discretă ar
fi numărul de nou născuţi pe zi la o anumită maternitate. Un exemplu de variabilă continuă este înălţimea persoanelor.

În general informaţiile ce se culeg sunt numai de la o parte din indivizi, nu din întreaga populaţie. Aceasta este o
cercetare selectivă. Aceşti indivizi formează eşantionul sau selecţia de lucru.
SCALE DE MĂSURĂ: NOMINALĂ, ORDINALĂ, INTERVAL, RAPORT

Pentru a măsura o variabilă de tip categorial se folosesc scale nominale. Acestea vor defini
SCALE grupurile sau categoriile existente prin asignarea unor nume. Nefiind informaţie de tip cantitativ
NOMINALE este imposibil de realizat ordonarea acestora. De interes practic şi posibil de studiat sunt
frecvenţele de apariţie a categoriilor definite (anticipăm aici şi menţionăm că modul sau indicatorul
statistic valoare modală poate prezenta interes în acest caz).
Exemple: Status economic / social, preferinţa religioasă, culoarea ochilor, starea civilă etc.

Datele sau variabilele de tip cantitativ se caracterizează prin variaţie în magnitudine, de la


VARIABILELE element la element. Astfel, acestea pot fi ordonate, încât relaţii de genul mai mic sau mai
DE TIP mare au sens în acest context. După fineţea pasului de evaluare a relaţiei mai mare sau
CANTITATIV
mai mic, putem împărţi variabilele cantitative în discrete şi continue.

► VARIABILE O variabilă discretă poate lua valori numărabile sau izolate, cum ar fi: notele ca
DISCRETE valori întregi în domeniul 1-10, practic pe un subinterval există un număr finit de
valori.

► VARIABILELE O variabilă de tip continuu poate lua orice valoare dintr-un interval definit.
DE TIP CONTINUU Spre exemplu temperatura, valoarea presiunii arteriale, sau înălţimea unei
persoane au valori de tip continuu. Evident, precizia de măsurare depinde de
utilitatea informaţiei, astfel încât putem afirma că valoarea măsurată cu o
exactitate de o zecimală este suficientă în exprimarea temperaturii, folosind
scara Celsius de măsură.
VARIABILELE DE TIP CANTITATIV FOLOSESC TREI SCALE DE MĂSURĂ: ORDINALĂ, INTERVAL ŞI RAPORT.

SCALA Prezintă în plus faţă de scala nominală caracteristica de ordonare a claselor de grupare a datelor.
ORDINALĂ Cu toate acestea, este greu sau imposibil de specificat dimensiunea distanţei sau diferenţei dintre
clase. De exemplu, este imposibil de cuantificat diferenţa dintre clasele (depinde de cel ce
apreciază): foarte frumos, frumos, acceptabil, inacceptabil.
Dar dpdv logic, ordinea lor este clară. Scala ordinală are echivalent numeric.

SCALA DE TIP
Conţine trăsăturile unei scale ordinale şi în plus, diferenţele dintre clasele scalei pot fi
INTERVAL specificate. O unitate a intervalului scalei are aceeaşi interpretare, indiferent de clasa căreia
îi aparţine. Cu toate acestea, raportul este imposibil de interpretat. Nu există punctul de
referinţă 0 în cadrul acestei scale de măsură. Acesta a fost ales doar arbitrar, după o anumită
logică empirică. De exemplu, în scala Celsius de temperatură, nivelul de 0 a fost definit
empiric, ca punctul de îngheţ al apei pure. Şi scala Fahrenheit de măsură reprezintă un bun
exemplu. Dacă temperaturile măsurate sunt 300C, respectiv 600C putem afirma că
temperatura de 60 este dublul celei de 30 doar în această scală de măsură. Raportul nu poate
fi corect interpretat. Iată, 300C înseamnă 860F, iar 600C înseamnă 1400F (F=C*9/5+32, Celsius
=Kelvin + 273.15). Raportul de 2/1 nu se menţine şi în scara Fahrenheit, cu toate că
temperaturile sunt aceleaşi.

SCALA DE TIP
RAPORT Are în plus faţă de scala interval, definirea concretă a originii sistemului de măsură, astfel încât
raportul are sens şi se poate interpreta. Scara Kelvin este un exemplu corect în acest sens.
Tc = (5/9)*(Tf-32); Tc = temperatura in grade Celsius, Tf = temperatura in grade Fahrenheit
Tf = (9/5)*Tc+32
Tc=273.15 + Tk; Tk – temperatura exprimată in grade Kelvin
SCALE DE MĂSURĂ: NOMINALĂ, ORDINALĂ, INTERVAL, RAPORT

Interpretarea este în sensul următor:


oricând o variabilă ce poate fi măsurată pe o scală ordinală
Scala Scala Scala poate fi tratată ca o variabilă de scală nominală, dar o parte
raport interval ordinală Scala din informaţie va fi pierdută şi astfel avem ”şanse” să fim
nominală deficitari în concluziile obţinute.
VARIABILE

După legătura existentă între variabile, acestea se împart în:


dependente,
independente.

Variabile independente (sau factori sau covariabile) pot fi în cadrul unui experiment manipulate de
cercetător.

Prin modificarea valorilor acestora, ca urmare a legăturilor existente, se modifică şi variabilele


dependente.

Y = f(X) ,
Y este variabila dependentă,
X variabila independentă (sau factor).
REPREZENTAREA DATELOR STATISTICE. FRECVENŢE

Frecvenţa Frecvenţa Frecvenţa


Grupa de absolută Frecvenţa absolută relativă cumulată
vârstă (ai) relativă (fi) cumulată (Ai) (Fi)
0-4 15 0.1163 15 0.1163
Pentru eşantioane “mari” frecvenţa relativă tinde 5-9 17 0.1318 32 0.2481
către probabilitatea evenimentului studiat  LEGEA 10 - 14 20 0.1550 52 0.4031
NUMERELOR MARI. 15 - 19 25 0.1938 77 0.5969
20 - 24 19 0.1473 96 0.7442
25 - 29 18 0.1395 114 0.8837
30 - 34 15 0.1163 129 1
Total 129 1

Numărul indivizilor ce aparţin unui anumit interval (sau clasă) formează


aj – frecvenţa absolută a clasei j.
frecvenţa absolută notată a1, a2, …am m – numărul de clase.
(m numărul de clase ce este de obicei mai mic ca n numărul de indivizi). n – numărul de indivizi (sau N).

Frecvenţa relativă fi se obţine raportând frecvenţa absolută aj la numărul de indivizi. şi avem relaţia:

Frecvenţa cumulată este numărul de indivizi cumulaţi până la o anumită valoare a variabilei de studiu.
La rândul ei frecvenţa cumulată poate fi absolută şi relativă.
Pentru notația frecvenţelor cumulate se folosesc de obicei majuscule.
REPREZENTAREA DATELOR STATISTICE. HISTOGRAMA

Putem reprezenta grafic frecvențele


absolute,

 relative şi
cumulate 

 Histograma - Este reprezentarea sub formă grafică folosind coloane pentru frecvențele
relative. În mod obișnuit intervalele de grupare sunt egale ca dimensiune. Ideea de bază este
de a reprezenta o densitate a frecvenței (frecvenţa pe clasa respectivă) – pentru a scoate în
evidență distribuția datelor.
 Histograma reprezintă o aproximare a densităţii de probabilitate.
 Forma graficului ce reprezintă frecvenţa absolută seamănă cu cel ce reprezintă frecvenţa
relativă….?
 Eşantionul este finit ca dimensiune şi poate exprima o variabilă cu domeniu finit. Aceasta este
apoi interpretată folosind curba Gauss-Laplace ce se defneşte pe un domeniu infinit, cum este
posibil acest lucru ?
REPREZENTAREA DATELOR STATISTICE. FRECVENŢE

 Există diferite forme de reprezentare grafică ce scot în evidență distribuția datelor.


 Nu există o metodă optimă de determinare a numărului de intervale de clasa şi implicit a dimensiunii unui interval. Însa numărul
acestora nu trebuie să fie mai mic decât 10 şi nici mai mare decât 30.

ALTE FORME DE REPREZENTARE GRAFICĂ

Diagrama cu linii.

Poligonul frecvențelor se definesc punctele corespunzătoare centrului intervalului și


corespunzător frecvențelor se unesc punctele respective prin linii. Centrul intervalului se mai
numește și punctul median al clasei și este semisuma limitelor fiecărei clase.
INDICATORI STATISTICI

În studiul distribuţiei de frecvenţe a caracteristicii unei populaţii se observă tendinţe ce prezintă două aspecte:
1 – de localizare (de poziţie)
2 – de împrăştiere (de variaţie).
 Analiza cantitativă care să permită evaluări şi comparaţii din punct de vedere al localizării sau al împrăştierii datelor se poate efectua
cu ajutorul indicatorilor statistici.
 Aceştia exprimă numeric, pe baza valorilor de studiu, fie localizarea fie variaţia datelor.

MEDIA MEDIANA
Mediana este valoarea de mijloc a șirului ordonat (notăm n=nr. valori).
Media aritmetică Pt. n impar:
VALOAREA CENTRALĂ
Pt n par:
Media geometrică
MODUL (VALOAREA MODALĂ)
Fie şirul format din elementele x1, x2, x3, … ,xn.
Media armonică Valoarea xi corespunzătoare frecvenţei celei mai mari poartă numele de modul.
Dacă toate valorile au aceeași frecvență NU există valoare modală !

PROPRIETĂŢILE CARACTERISTICILOR DE LOCALIZARE


► Mediile aritmetică şi pătratică sunt influenţate de valorile mari ale şirului.
► Mediile geometrică şi armonică sunt mai puternic influenţate de valorile mici ale şirului.
Media pătratică ► Mediana nu este influenţată de valorile extreme.
► Valoarea centrală nu depinde de toate valorile şirului de date ci numai de cele extreme.
► Relaţie existentă între medii:
Cel mai des indicator de localizare folosit este media aritmetică.
2. INDICATORI STATISTICI DE VARIAŢIE

Aceştia reprezintă o evaluare numerică a împrăştierii datelor.

DISPERSIA (VARIANȚA)

ABATEREA PĂTRATICĂ MEDIE SAU DEVIAȚIA STANDARD

AMPLITUDINEA (RANGE)
Este definită ca diferenţa valorilor extreme şi se notează cu W sau A (în majoritatea cazurilor).
Este în fapt domeniul de variație al datelor.
W = A = Xmax - Xmin

INTERVALUL INTERCUARTILIC
Cuartilele împart datele în 4 clase de frecvenţe egale cu 25%.
Astfel sunt necesare 3 valori notate Q1, Q2, Q3 ce reprezintă cuartilele.
Intervalul intercuartilic este Q3-Q1. Mediana este astfel cuartila a 2-a.
COEFICIENTUL DE VARIAŢIE
Abaterea pătratică medie se interpretează prin compararea cu media valorilor de studiat.Dacă avem o medie de 100 şi o abatere pătratică
standard de valoare 5, atunci avem mici variaţii, dar dacă avem aceeaşi abatere la o medie de 10, atunci variaţia este mare.
În concluzie se defineşte coeficientul de variaţie: 
Cx 

2. INDICATORI STATISTICI DE VARIAŢIE

ASIMETRIE - SKEWNESS
În modul tradițional (există mai multe moduri) de definire a asimetriei avem:
1 – Dacă Sk>0 , avem asimetrie pozitivă sau la dreapta (media µ >Mo valoarea modală).
2 – Dacă Sk<0 , avem asimetrie negativă sau la stânga (media µ < Mo valoarea modală).
3 – Dacă Sk=0 , avem simetrie (distribuţia normală are asimetria 0, M(x)=Mo).
În general o distribuţie ce are valoarea Sk diferită de 0 cu mai mult de un punct, denotă o diferenţă semnificativă faţă de distribuţia normală.

Bimodală Multimodală
Unimodală

Scoate în evidență existența a două populații !


2. INDICATORI STATISTICI DE VARIAŢIE

BOLTIREA (EXCESUL, KURTOSIS)

Repartiţie
Repartiţie
Repartiţie ascuţită
medie sau
aplatizată sau
saumezocurtică
leptocurtică
platicurtică
Avem următoarele modalităţi de caracterizare a distribuţiilor:
 2  3
Mezocurtică 
2  3

Leptocurtică 

Platicurtică 
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39
GRAFICUL DE TIP BOX-AND-WHISKERS (SAU BOX-PLOT)

Este o metodă ce prezintă compact forma distribuţiei unui set de date. Se foloseşte cu succes în compararea şi determinarea simetriei repartiţiei determinate de un lot de date.

Pentru realizarea graficului (standard Box-Plot)


se calculează anumiţi indicatori statistici ce
reprezintă cele 5 limite.

 Mediana este valoarea din cadrul şirului ordonat care se află la jumătatea acestuia. Aceasta împarte setul de date in două grupe egale şi
este reprezentată în grafic de linia notată cu valoarea 3.
 Limitele 2 respectiv 4 reprezintă valorile cuartilelor. Acestea împart distribuţia de frecvenţă în patru părţi egale. Astfel, în total sunt 3
ca număr. Cuartila a doua este chiar mediana (notată cu 3).
 Diferenţa dintre cuartila numită Q3 (notată cu 2 în grafic) şi numită Q1(notată cu 4) reprezintă intervalul intercuartilic. Acesta defineşte
lungimea a 50% din setul de date, procent centrat pe mediană.
 Extremele 1 respectiv 5 sunt determinate de – cuantile (numite și percentile). Astfel nivelul 5 din grafic va prezenta cuantila pentru
care 10% din date sunt sub această valoare, iar nivelul 1 din grafic va reprezenta valoarea pentru care 90% din date sunt sub acesta
(există și alte forme de reprezentare a extremelor).

Graficul este relevant prin faptul că scoate în evidenţă nivelul de simetrie al distribuţiei. Dacă distribuţia nu este simetrică mediana nu se
va afla la mijlocul dreptunghiului (în cele mai multe cazuri). Mai mult laturile din afara dreptunghiului nu vor fi de dimensiuni egale.
Simetria este o caracteristică importantă care poate să ne ajute în determinarea tipului de distribuţie.
REPARTIŢIA GAUSS-LAPLACE

Este cunoscut faptul că în cadrul unui experiment oricâte precauţii s-ar lua pentru a controla diferiţi factori, rezultatele obţinute vor prezenta o anumită
variabilitate. Această variabilitate este cuprinsă în aproape toate domeniile de lucru, obligându-ne să lucrăm cu intervale ale parametrilor de studiu în loc de
valori fixe.
Variabila aleatoare este o noţiune fundamentală din domeniul statisticii, reprezentând acea mărime de interes ce poate lua în cadrul realizării
experimentului o valoare oarecare necunoscută aprioric.

REPARTIŢIA NORMALĂ (GAUSS-LAPLACE NOTATĂ N(X,Μ,Σ))


Funcţia de probabilitate (cumulată)
Repartiţia Normală – depinde de parametrii: μ-medie și σ-deviație standard
Se notează simbolic N(, ) , sau N(x, , ).

Funcţia densitate de probabilitate


PROPRIETĂŢILE REPARTIŢIEI NORMALE

Proprietăţile repartiţiei normale

1. Distribuţia admite un singur maxim fiind astfel unimodală. Maximul se atinge în


1
punctul x= şi are valoarea f (  )  (în acest punct derivata este zero
 * 2 *
df/dx=0).
2. Este simetrică în raport cu dreapta x=. În orice repartiţie normală mediana şi
modul coincid cu media aritmetică. Datorită simetriei suprafaţa cuprinsă între
curba densităţii de probabilitate şi axa xx’ pe intervalul  ,   este egală cu cea
din intervalul  ,  şi are valoarea 1/2. Evident suprafa’a total[ are valoarea 1
reprezentând probabilitatea evenimentului sigur.
Suprafaţa cuprinsă între dreptele x=- , x=+ , x=0 şi curba densităţii de
probabilitate este egală cu 0,682. Conform calculelor şi reprezentării grafice
majoritatea cazurilor în proporţie de peste 95% se află în intervalul (-2 , +2 )
PROPRIETĂŢILE REPARTIŢIEI NORMALE

Pentru situația în care μ=0 și σ=1 avem distribuția standardizată. Practic orice distribuție de tip Gauss poate fi standardizată prin
transformarea de variabilă: Z=(x-μ)/σ.

Astfel cu Z se notează forma standardizată a distribuției Gauss-Laplace este N(0,1).


PROPRIETĂŢILE REPARTIŢIEI NORMALE

Exemplu de normalizare deci transformare a mediei μ=0 și a deviației


standard σ=1.
Formula aplicată: Z=(x-μ)/σ.
Deci fiecare valoare suportă transformarea aceasta.
Astfel cu Z se notează forma standardizată a distribuției Gauss-Laplace
este N(μ=0, σ=1).

Curba normalizată este desenată cu albastru.


Curba nenormalizată este desenată cu roșu.

Se calculează media μ și deviația standard σ a setului inițial de date.

Se creează o nouă coloană (în Excel) cu valorile normalizate (din fiecare


valoare se scade media și apoi se împarte la deviația standard).

În acest exemplu am scăzut media μ=6 și am împărțit la deviația


standard σ=0.7 (ce caracterizează curba desenată cu roșu).
EXEMPLU DE CALCUL AL PROBABILITĂŢII PE INTERVAL

Să presupunem că ne interesează să caracterizăm calitatea studenţilor din anul 6 de studiu la facultatea de medicină, prin determinarea probabilităţii pe
grupele de calificative folosite. Probabilitatea va reflecta practic frecvenţa de apariţie a unei grupe din cadrul calificativelor.
Tabelul următor defineşte legătura între aprecierea calitativă şi notele obţinute în sistem zecimal:
Notă obţinută Calificativ Se presupune că distribuţia respectă legea Gauss – Laplace.
8.5 - 10 A Se cunoaşte media pe lotul de studiu μ=7.8 şi de asemenea, deviaţia standard σ=0.8
6.5 – 8.4 B
5.5 – 6.4 C • Pentru determinarea probabilităţii vom folosi funcţia
5 – 5.4 D NORMDIST(x,mean,st_dev,cumulative) din Microsoft Excel. Acasta ne ajută să calculăm
Sub 5 E densitatea de probabilitate sau probabilitatea cumulată pentru o distribuţie normală.
• Parametrul cumulative al funcţiei poate lua 2 valori: TRUE sau FALSE (sau 1 respectiv 0).
TRUE (sau 1) implică calculul probabilităţii cumulate (suprafaţa deci F(x)),
FALSE (sau 0) implică calculul densităţii de probabilitate (f(x)).
• Pentru cazul x=8.5 avem (deci descriem calificativul A): NORMDIST(8.5,7.8,0.8,1)=0.809.
• Astfel probabilitatea de a obţine un calificativ A este de 1-0.809 = 0.191.

Pentru a obţine calificativul B probabilitatea este:


NORMDIST(8.5,7.8,0.8,1)-NORMDIST(6.5,7.8,0.8,1)=0.809-0.052=0.757

Probabilitatea de a obţine calificativul A este 1-0.809= 0.191


EXEMPLU DE CALCUL ÎN MICROSOFT EXCEL A INDICATORILOR STATISTICI

Nr Indicator statistic Funcţie Excel Descriere / formula


1. Media aritmetică Average() Media setului selectat 1. Dispersia Var() sau m
Averageif() Media selecţiei pentru celulele ce
îndeplinesc o singură condiţie.
(pt. eşantion) Var.s()  x
i 1
i  x 2

Averageifs() Media selecţiei pentru condiţii multiple. 2 


n 1
2. Media aritmetică Trimmean(domeniu, Se calculează media aritmetică
2. Deviaţia standard Stdevp() sau m

 x
ajustată. procent) eliminând din setul de date procentul
specificat din valorile extreme atât (pt. populaţie) Stdev.p() i  x 2
i 1
minimă cât şi maximă. Vor rămâne : 
100% − 2 ∙ 𝑝𝑟𝑜𝑐𝑒𝑛𝑡 ∙ 𝑁𝑟. 𝑑𝑎𝑡𝑒. 𝑖𝑛𝑖𝑡 n
3. Media armonică Harmean() n 3. Deviaţia standard Stdev() sau
MH  m

 x  x 2
n

 (pt. eşantion) Stedv.s()


1 i
xi i 1
i 1 
4. Media Veţi propune o metodă X1 X n 1
 X 2  ...  X n  1  n
cronologică de calcul. MC  2 2 4. Calcul cuartile Quartile (domeniu, Valoarea indică numărul cuartilei
n 1
valoare) calculate:
5. Media Geomean() n
0 – minimul ; 1 – Q1 ; 2 – Q2 ; 3 – Q3 ; 4 -
geometrică MG  n x i 1
i
maximul
6. Media pătratică Veţi propune o metodă n 5. Intervalul Veţi calcula diferenţa. IQ = Q3 – Q1
de calcul.  i 1
xi 2 cuartilic
MP   x2 6. Asimetria Skew() n
 xi  x 
3


n
n Sk    
7. Mediana Median() Valoarea de mijloc a şirului ordonat (n  1)  (n  2)  s 
i 1
8. Valoarea modală Mode() sau Valoarea de frecvenţă maximă
7. Boltirea Kurt() n  (n  1)
(modul) Mode.sngl() 2  
9. Dispersia Varp() sau m (n  1)  (n  2)  (n  3)
(pt. populaţie) Var.p()  x  x 2 n
 xi  x 
4
3  (n  1) 2

i
 
2 i 1    
(n  2)  (n  3)
i 1 
n s 
EXEMPLU – CREAREA HISTOGRAMEI

1 – Determinați minimul și maximul setului de date:


- o metodă constă în utilizarea metodei Descriptive Statistics;
- sau puteți folosi funcțiile min() și max() din Excel.

2 – Calculați numărul de grupe (numite bins):

- formula Sturges : k  log2 (n)  1


Excel: LOG(number, [base])

Funcția LOG conține următoarele argumente:


Number - strict necesar. Numărul real pozitiv pentru care se calculează logaritmul;
Base - Opțional. Baza logaritmului, dacă aceasta este omisă se presupune implicit a fi 10.

3 – Determinați lățimea intervalului de grupare:

4 – Calculați numărul de valori pentru fiecare grup sau clasă;

5 – Realizați graficul de tip coloană pentru frecvențele relative (se acceptă și cele absolute).
EXEMPLU – CREAREA HISTOGRAMEI

Nu există un număr ideal (perfect) de intervale de grupare.


Astfel, histograma va prezenta diferite trăsături ale datelor funcție de acest număr.
EXEMPLU – CREAREA HISTOGRAMEI

O altă metodă de realizare constă în utilizarea opțiunii Histogram din grupul Data Analysis
- pentru aceasta mai întâi veți defini limitele intervalelor de grupare (bins ranges).
Exemple de posibile întrebări de examen

• Care dintre indicatori măsoară împrăștierea datelor ?


• Care dintre indicatori măsoară localizarea datelor ?
• Într-o distribuție simetrică ce putem spune despre medie și mediană ?
• Dar într-o distribuție normală, ce putem afirma despre medie, mediană și valoarea modală ?
• Definiți mediana, intervalul intercuartilic și valoarea modală ?
• Care dintre indicatori este mai puțin influențat de valorile extreme ?
• Suma frecvențelor relative este egală cu …. ?
• Care indicatori statistici definesc graficul de tip Box-plot ?
• Care sunt parametrii distribuției Gauss-Laplace ?
• Puteți desena două distribuții Gauss-Laplace în care doar dispersiile diferă ?
• Descrieți proprietățile curbei Gauss-Laplace.
• …………………………….etc.
CÂTEVA LINKURI UTILE CE PREZINTĂ ELEMENTELE DE BAZĂ ÎN STATISTICĂ

https://statistics.laerd.com/statistical-guides/types-of-variable.php

http://onlinestatbook.com/2/normal_distribution/normal_distribution.html

http://stattrek.com/descriptive-statistics/variables.aspx?Tutorial=AP
Întrebari

Discuţii