Documente Academic
Documente Profesional
Documente Cultură
TIPURI DE VARIABILE.
INDICATORI STATISTICI.
DISTRIBUTIA GAUSS-LAPLACE.
VARIABILIATATEA DATELOR MEDICALE
Leucocite
(Globulă albă din sânge, care are un rol important 5.000-8.000 /mm 3
în protejarea organismului împotriva microbilor.)
Segmentate 2.500-5.500 /mm 3
Neutrofile
Nesegmentate 50-250 /mm 3
Granulocite Eozinofile 100-200 /mm 3
Bazofile 20-40 /mm 3
Limfocite 1.200-2.400 /mm 3
Monocite 300-640 /mm 3
Trombocite 150.000-300.000 /mm 3
Glicemia – (a jeun) normala:70-110 mg/dl
STATISTICA – ANALIZA PROBABILITĂŢII
Datele culese experimental urmează a fi analizate conform metodelor statistice.Datele se culeg în general dintr-o
populaţie statistică sau colectivitate statistică. Elementele populaţiei sunt unităţi statistice sau indivizi.
La un anumit moment ne interesează o trăsătură comună a indivizilor, numită variabilă sau caracteristică.
Variabilele pot fi cantitative (şi se exprimă numeric prin valoarea numerică măsurată sau dedusă experimental) sau
calitative (categoriale,atributive). Acestea din urmă se pot exprima prin atribute. Ex: grupa de sânge, genul,
apartenenţa politică, culorile.
În sens propriu valorile numerice pot fi ordonate – caracteristică ce nu există la variabilele calitative.
Variabilele cantitative pot fi împărţite în continuare în variabile discrete şi continue. Un exemplu de variabilă discretă ar
fi numărul de nou născuţi pe zi la o anumită maternitate. Un exemplu de variabilă continuă este înălţimea persoanelor.
În general informaţiile ce se culeg sunt numai de la o parte din indivizi, nu din întreaga populaţie. Aceasta este o
cercetare selectivă. Aceşti indivizi formează eşantionul sau selecţia de lucru.
SCALE DE MĂSURĂ: NOMINALĂ, ORDINALĂ, INTERVAL, RAPORT
Pentru a măsura o variabilă de tip categorial se folosesc scale nominale. Acestea vor defini
SCALE grupurile sau categoriile existente prin asignarea unor nume. Nefiind informaţie de tip cantitativ
NOMINALE este imposibil de realizat ordonarea acestora. De interes practic şi posibil de studiat sunt
frecvenţele de apariţie a categoriilor definite (anticipăm aici şi menţionăm că modul sau indicatorul
statistic valoare modală poate prezenta interes în acest caz).
Exemple: Status economic / social, preferinţa religioasă, culoarea ochilor, starea civilă etc.
► VARIABILE O variabilă discretă poate lua valori numărabile sau izolate, cum ar fi: notele ca
DISCRETE valori întregi în domeniul 1-10, practic pe un subinterval există un număr finit de
valori.
► VARIABILELE O variabilă de tip continuu poate lua orice valoare dintr-un interval definit.
DE TIP CONTINUU Spre exemplu temperatura, valoarea presiunii arteriale, sau înălţimea unei
persoane au valori de tip continuu. Evident, precizia de măsurare depinde de
utilitatea informaţiei, astfel încât putem afirma că valoarea măsurată cu o
exactitate de o zecimală este suficientă în exprimarea temperaturii, folosind
scara Celsius de măsură.
VARIABILELE DE TIP CANTITATIV FOLOSESC TREI SCALE DE MĂSURĂ: ORDINALĂ, INTERVAL ŞI RAPORT.
SCALA Prezintă în plus faţă de scala nominală caracteristica de ordonare a claselor de grupare a datelor.
ORDINALĂ Cu toate acestea, este greu sau imposibil de specificat dimensiunea distanţei sau diferenţei dintre
clase. De exemplu, este imposibil de cuantificat diferenţa dintre clasele (depinde de cel ce
apreciază): foarte frumos, frumos, acceptabil, inacceptabil.
Dar dpdv logic, ordinea lor este clară.
SCALA DE TIP
Conţine trăsăturile unei scale ordinale şi în plus, diferenţele dintre clasele scalei pot fi
INTERVAL specificate. O unitate a intervalului scalei are aceeaşi interpretare, indiferent de clasa căreia
îi aparţine. Cu toate acestea, raportul este imposibil de interpretat. Nu există punctul de
referinţă 0 în cadrul acestei scale de măsură. Acesta a fost ales doar arbitrar, după o anumită
logică empirică. De exemplu, în scala Celsius de temperatură, nivelul de 0 a fost definit
empiric, ca punctul de îngheţ al apei pure. Şi scala Fahrenheit de măsură reprezintă un bun
exemplu. Dacă temperaturile măsurate sunt 300C, respectiv 600C putem afirma că
temperatura de 600 este dublul celei de 300 doar în această scală de măsură. Raportul nu
poate fi corect interpretat. Iată, 300C înseamnă 860F, iar 600C înseamnă 1400F (F=C*9/5+32,
Celsius =Kelvin + 273.15). Raportul de 2/1 nu se menţine şi în scara Fahrenheit, cu toate că
temperaturile sunt aceleaşi.
SCALA DE TIP
RAPORT Are în plus faţă de scala interval, definirea concretă a originii sistemului de măsură, astfel încât
raportul are sens şi se poate interpreta. Scara Kelvin este un exemplu corect în acest sens.
Tc = (5/9)*(Tf-32); Tc = temperatura in grade Celsius, Tf = temperatura in grade Fahrenheit
Tf = (9/5)*Tc+32
Tc=273.15 + Tk; Tk – temperatura exprimată in grade Kelvin
SCALE DE MĂSURĂ: NOMINALĂ, ORDINALĂ, INTERVAL, RAPORT
Variabile independente (sau factori sau covariabile) pot fi în cadrul unui experiment manipulate de
cercetător.
Y = f(X) ,
Y este variabila dependentă,
X variabila independentă (sau factor).
REPREZENTAREA DATELOR STATISTICE. FRECVENŢE
Frecvenţa relativă fi se obţine raportând frecvenţa absolută aj la numărul de indivizi. şi avem relaţia:
Frecvenţa cumulată este numărul de indivizi cumulaţi până la o anumită valoare a variabilei de studiu.
La rândul ei frecvenţa cumulată poate fi absolută şi relativă.
Pentru notația frecvenţelor cumulate se folosesc de obicei majuscule.
REPREZENTAREA DATELOR STATISTICE. HISTOGRAMA
relative şi
cumulate
Histograma - Este reprezentarea sub formă grafică folosind coloane pentru frecvențele
relative. În mod obișnuit intervalele de grupare sunt egale ca dimensiune. Ideea de bază este
de a reprezenta o densitate a frecvenței (frecvenţa pe clasa respectivă) – pentru a scoate în
evidență distribuția datelor.
Histograma reprezintă o aproximare a densităţii de probabilitate.
Forma graficului ce reprezintă frecvenţa absolută seamănă cu cel ce reprezintă frecvenţa
relativă….?
Eşantionul este finit ca dimensiune şi poate exprima o variabilă cu domeniu finit. Aceasta este
apoi interpretată folosind curba Gauss-Laplace ce se definește pe un domeniu infinit, cum este
posibil acest lucru ?
REPREZENTAREA DATELOR STATISTICE. FRECVENŢE
Diagrama cu linii.
În studiul distribuţiei de frecvenţe a caracteristicii unei populaţii se observă tendinţe ce prezintă două aspecte:
1 – de localizare (de poziţie)
2 – de împrăştiere (de variaţie).
Analiza cantitativă care să permită evaluări şi comparaţii din punct de vedere al localizării sau al împrăştierii datelor se poate efectua
cu ajutorul indicatorilor statistici.
Aceştia exprimă numeric, pe baza valorilor de studiu, fie localizarea fie variaţia datelor.
MEDIA MEDIANA
Mediana este valoarea de mijloc a șirului ordonat (notăm n=nr. valori).
Media aritmetică Pt. n impar:
VALOAREA CENTRALĂ
Pt n par:
Media geometrică
MODUL (VALOAREA MODALĂ)
Fie şirul format din elementele x1, x2, x3, … ,xn.
Media armonică Valoarea xi corespunzătoare frecvenţei celei mai mari poartă numele de modul.
Dacă toate valorile au aceeași frecvență NU există valoare modală !
DISPERSIA (VARIANȚA)
AMPLITUDINEA (RANGE)
Este definită ca diferenţa valorilor extreme şi se notează cu W sau A (în majoritatea cazurilor).
Este în fapt domeniul de variație al datelor.
W = A = Xmax - Xmin
INTERVALUL INTERCUARTILIC
Cuartilele împart datele în 4 clase de frecvenţe egale cu 25%.
Astfel sunt necesare 3 valori notate Q1, Q2, Q3 ce reprezintă cuartilele.
Intervalul intercuartilic este Q3-Q1. Mediana este astfel cuartila a 2-a.
COEFICIENTUL DE VARIAŢIE
Abaterea pătratică medie se interpretează prin compararea cu media valorilor de studiat. Dacă avem o medie de 100 şi o abatere pătratică
standard de valoare 5, atunci avem mici variaţii, dar dacă avem aceeaşi abatere la o medie de 10, atunci variaţia este mare.
În concluzie se defineşte coeficientul de variaţie: 𝜎
𝐶𝑉 =
𝜇
2. INDICATORI STATISTICI DE VARIAŢIE
ASIMETRIE - SKEWNESS
Putem observa că pentru o distribuție unimodală avem:
1 – Dacă Sk>0 , avem asimetrie pozitivă sau la dreapta (media µ >Mo valoarea modală).
2 – Dacă Sk<0 , avem asimetrie negativă sau la stânga (media µ < Mo valoarea modală).
3 – Dacă Sk=0 , avem simetrie (distribuţia normală are asimetria 0, M(x)=Mo).
În general o distribuţie ce are valoarea Sk diferită de 0 cu mai mult de un punct, denotă o diferenţă semnificativă faţă de distribuţia normală.
Bimodală Multimodală
Unimodală
Repartiţie
Repartiţie
Repartiţie ascuţită
medie sau
aplatizată sau
saumezocurtică
leptocurtică
platicurtică
Avem următoarele modalităţi de caracterizare a distribuţiilor:
2 3
Mezocurtică
2 3
Leptocurtică
Platicurtică
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39
GRAFICUL DE TIP BOX-AND-WHISKERS (SAU BOX-PLOT)
Este o metodă ce prezintă compact forma distribuţiei unui set de date. Se foloseşte cu succes în compararea şi determinarea simetriei repartiţiei determinate de un lot de date.
Mediana este valoarea din cadrul şirului ordonat care se află la jumătatea acestuia. Aceasta împarte setul de date in două grupe egale şi
este reprezentată în grafic de linia notată cu valoarea 3.
Limitele 2 respectiv 4 reprezintă valorile cuartilelor. Acestea împart distribuţia de frecvenţă în patru părţi egale. Astfel, în total sunt 3
ca număr. Cuartila a doua este chiar mediana (notată cu 3).
Diferenţa dintre cuartila numită Q3 (notată cu 2 în grafic) şi numită Q1(notată cu 4) reprezintă intervalul intercuartilic (IQR). Acesta
defineşte lungimea a 50% din setul de date, procent centrat pe mediană.
Valorile notate cu 1 respectiv 5 sunt extremele deci minimul respectiv maximul din setul de date (există și alte forme de reprezentare a
extremelor – limita superioară (notată cu 1)= Q3+1.5*IQR, într-un mod asemănător se definește limita inf.).
Graficul este relevant prin faptul că scoate în evidenţă nivelul de simetrie al distribuţiei. Dacă distribuţia nu este simetrică mediana nu se
va afla la mijlocul dreptunghiului (în cele mai multe cazuri). Mai mult liniile din afara dreptunghiului nu vor fi de dimensiuni egale.
Simetria este o caracteristică importantă care poate să ne ajute în determinarea tipului de distribuţie.
REPARTIŢIA GAUSS-LAPLACE
Este cunoscut faptul că în cadrul unui experiment oricâte precauţii s-ar lua pentru a controla diferiţi factori, rezultatele obţinute vor prezenta o anumită
variabilitate. Această variabilitate este cuprinsă în aproape toate domeniile de lucru, obligându-ne să lucrăm cu intervale ale parametrilor de studiu în loc de
valori fixe.
Variabila aleatoare este o noţiune fundamentală din domeniul statisticii, reprezentând acea mărime de interes ce poate lua în cadrul realizării
experimentului o valoare oarecare necunoscută aprioric.
σ1< σ2< σ3
Pentru situația în care μ=0 și σ=1 avem distribuția standardizată. Practic orice distribuție de tip Gauss poate fi standardizată prin
transformarea de variabilă: Z=(x-μ)/σ.
Să presupunem că ne interesează să caracterizăm calitatea studenţilor din anul 6 de studiu la facultatea de medicină, prin determinarea probabilităţii pe
grupele de calificative folosite. Probabilitatea va reflecta practic frecvenţa de apariţie a unei grupe din cadrul calificativelor.
Tabelul următor defineşte legătura între aprecierea calitativă şi notele obţinute în sistem zecimal:
Notă obţinută Calificativ Se presupune că distribuţia respectă legea Gauss – Laplace.
8.5 - 10 A Se cunoaşte media pe lotul de studiu μ=7.8 şi de asemenea, deviaţia standard σ=0.8
6.5 – 8.4 B
5.5 – 6.4 C • Pentru determinarea probabilităţii vom folosi funcţia
5 – 5.4 D NORMDIST(x,mean,st_dev,cumulative) din Microsoft Excel. Acasta ne ajută să calculăm
Sub 5 E densitatea de probabilitate sau probabilitatea cumulată pentru o distribuţie normală.
• Parametrul cumulative al funcţiei poate lua 2 valori: TRUE sau FALSE (sau 1 respectiv 0).
TRUE (sau 1) implică calculul probabilităţii cumulate (suprafaţa deci F(x)),
FALSE (sau 0) implică calculul densităţii de probabilitate (f(x)).
• Pentru cazul x=8.5 avem (deci descriem calificativul A): NORMDIST(8.5,7.8,0.8,1)=0.809.
• Astfel probabilitatea de a obţine un calificativ A este de 1-0.809 = 0.191.
x
ajustată. procent) eliminând din setul de date procentul
specificat din valorile extreme atât (pt. populaţie) Stdev.p() i x 2
i 1
minimă cât şi maximă. Vor rămâne :
100% − 2 ∙ 𝑝𝑟𝑜𝑐𝑒𝑛𝑡 ∙ 𝑁𝑟. 𝑑𝑎𝑡𝑒. 𝑖𝑛𝑖𝑡 n
3. Media armonică Harmean() n 3. Deviaţia standard Stdev() sau
MH m
x x 2
n
n
n Sk
7. Mediana Median() Valoarea de mijloc a şirului ordonat (n 1) (n 2) s
i 1
8. Valoarea modală Mode() sau Valoarea de frecvenţă maximă
7. Boltirea Kurt() n (n 1)
(modul) Mode.sngl() 2
9. Dispersia Varp() sau m (n 1) (n 2) (n 3)
(pt. populaţie) Var.p() x x 2 n
xi x
4
3 (n 1) 2
i
2 i 1
(n 2) (n 3)
i 1
n s
EXEMPLU – CREAREA HISTOGRAMEI
5 – Realizați graficul de tip coloană pentru frecvențele relative (se acceptă și cele absolute).
EXEMPLU – CREAREA HISTOGRAMEI
O altă metodă de realizare constă în utilizarea opțiunii Histogram din grupul Data Analysis
- pentru aceasta mai întâi veți defini limitele intervalelor de grupare (bins ranges).
Exemple de posibile întrebări de examen
• Care dintre indicatori măsoară împrăștierea datelor ? (stdev, amplitudinea, intervalul intercuartilic…)
• Care dintre indicatori măsoară localizarea datelor ? (media, mediana, val modală…)
• Într-o distribuție simetrică ce putem spune despre medie și mediană ? (sunt egale)
• Dar într-o distribuție normală, ce putem afirma despre medie, mediană și valoarea modală ? (=)
• Definiți mediana, intervalul intercuartilic, valoarea modală, asimetria ……. etc.
• Care dintre indicatori este mai puțin influențat de valorile extreme ? (mediana)
• Suma frecvențelor relative este egală cu …. ? Corespunzător suma probabilităților este….? (=1)
• Care indicatori statistici definesc graficul de tip Box-plot ?
• Care sunt parametrii distribuției Gauss-Laplace ? (media și deviația standard)
• Puteți desena două distribuții Gauss-Laplace în care doar dispersiile să fie diferite ? Cum depinde
maximul de dispersie ?
• Descrieți proprietățile curbei Gauss-Laplace.
• Formula coeficientului de variație este σ/µ. Este corect ?
• Mediana este cuartila a 2-a. Este corect ?
• Definiți asimetria de dreapta…
• Într-o distribuție Gauss-Laplace 95% din date se află în intervalul: media +/- ….. ? (media +/- 2σ)
• ………………………….etc.
CÂTEVA LINKURI UTILE CE PREZINTĂ ELEMENTELE DE BAZĂ ÎN STATISTICĂ
https://statistics.laerd.com/statistical-guides/types-of-variable.php
http://onlinestatbook.com/2/normal_distribution/normal_distribution.html
http://stattrek.com/descriptive-statistics/variables.aspx?Tutorial=AP
Întrebari
Discuţii