Sunteți pe pagina 1din 4

Cursuri Informatica si Biostatistica Medicala

Curs 1:
- datele calitative: cand indivizii apartin sau sunt clasificati in clase separate (ex: diagnostic, sex,
decedat/viu)
 variabila calitativa = variabila categoriala, de clasificare, atribut
- datele cantitative: numerice, obtinute prin numarare sau rezultatul unor masuratori:
 valorile= numere intregi  obtinute prin numarare date discrete (ex: nr. episoade ulcer)
 valorile obtinute prin masuratori  orice valoare dintr-un interval  date continue (ex:
presiunea sangelui, colesterol seric)
- tipuri de date:
 populatie: nr. mare de indivizi, caracter dinamic, bine definita la un moment de timp dat
 esantion: o parte mai mica din populatie (se extrage suficienta info pentru a face
inferente asupra asupra caracteristicilor studiate la niv. populatiei)
 variabile: calitati/ cantitati cu valori diferite de la un membru al unui esantion la altul
 statistica: formula a carei valoare se obtine din datele dintr-un esantion
- distributii de frecventa:
 numarul de persoane care apartin unei categorii = frecventa
 proportia persoanelor care apartin unei categorii = frecventa relativa/ proportionala
 multimea valorilor frecventelor pentru toate categoriile posibile = distributie de frecventa a
variabilei
- categorii ordonate:
 frecventa cumulata pentru o valoare a variabilei = nr. de indivizi cu val. mai mici sau
egale cu aceasta valoare
 frecventa cumulata relativa= proportia de indivizi din esantion cu val. mai mici sau egale
cu aceasta val.

- variabile cantitative discrete:


 se poate numara de cate ori apare fiecare valoare pentru a obtine distributia de frecventa
- variabile continue:
 dupa masuratori, exista mai multe valori care apar doar o data, iar nr. de aparitii al unei
valori nu ajuta  se imparte scala (plaja de valori) in intervale/ clase (ex: valorile
colesterolului seric in 3.0-4.0, 4.0-5.0, etc.) + se numara persoanele cu colesterol din fiecare
interval
 intervalele nu trebuie sa se suprapuna  se decide ce interval contine punctul de
frontiera pentru a evita nr. unei valori de doua ori
 se pune limita inf. in intervalul la care ne referim, iar limita sup. in intervalul urmator ex:
3.0-4.0 = 3.0-3.999
 distributia de frecventa:
 depinde de alegerea latimii intervalului
 forma importanta
 diferite pct. de plecare (limita inf. a primului interval) si lungimi de interval  forme
diferite:
lungimi de interval egale, limita inf. la distante egale/ nr. intregi  diagrama
echilibrata, daca nu  diagrama grosolana
 prezentarea grafica = histograma, diagrama in care fiecare interval e reprezentat pe
axa de o bara dreptunghiulara cu inaltimea d.p cu frecventa/ proportia din intervalul
considerat
- histograme si alte grafice pentru frecventa:
 densitatea de frecventa= nr. de observatii pe unitatea de variabila
 frecventa = aria de sub
histograma
intervalul 3.75-4.25 mmol/ L 
densitate de frecventa = 4
observatii
latimea intervalului= 0.5  aria/
frecventa= 0.5 x 4= 2
 permite netezirea histogramei
 pe scala frecventelor, unificare
intervalelor produce o impresie
eronata
 densitatea de frecventa relativa=
proportia de observatii pe unitatea de
variabila
 pentru o variabila discreta, dreptunghiurile (barele) pot fi separate  subliniaza
discretitudinea
 poligonul frecventelor: unirea vf. barelor din
histograma
 util pentru reprezentarea mai multor distributii pe
aceleasi axe
 pentru o variabila calitativa, se poate folosi diagrama
circulara sau diagrama cu dreptunghiuri/ bare
orizontale
- forma distributiilor de frecventa:
 modul=valoarea cea mai frecvent intalnita in
distributie (ex: intervalul cu cele mai multe aparitii)
 distributia:
 unimodala: distributia cu un singur modul
( o singura populatie)
 bimodala: distributia cu doua module ( 
doua populatii)
 cozile= extreme ale distributiei, unde observatiile
sunt, de obicei, rare
 daca coada din dreapta are lungime similara cu cea din stanga  distributie
simetrica
 daca coada din dreapta mai lunga  distributie asimetrica la dreapta / pozitiv
asimetrica
 daca coada din stanga e mai lunga  distributie asimetrica la stanga/
negativ asimetrica
 majoritatea dateor medicale au distributii unimodale si sunt simetrice/ pozitiv asimetrice
- sintetizarea datelor cantitative
 cuantile = valori care impart distributia a.i exista o proportie de observatii la stanga cuantilei
 mediana= valoarea centrala a distributiei a.i ½ dintre observatii sunt mai mici sau eglae
decat valoarea ei si ½ mai mari sau egale cu aceasta
 un nr. impar de observatii  mediana = valoarea centrala
 nr. par de observatii  mediana = media aritmetica a celor doua val. centrale
 statistica descriptiva f. utila
 cuartile= impart distributia in 4 parti egale:
 prima cuartila = valoare care delimiteaza primul sf. de distributie (lasa 25% observatii
la stg. ei)
 a doua cuartila = mediana
 a tria cuartila= delimiteaza ¾ de distributie (lasa la stg. 75%)
 cuartila= pct. de diviziune, NU reprezinta aria de sub grafic
 se poate imparti distributia in 100 parti egale = centile/ percentile
 media aritmetica= denumita si medie, insumarea val. tuturor observatiilor + impartirea
sumei la nr. lor
 adesea notata cu o bara mica deasupra simbolului variabilei
 proprietati mtematice mai uitle decat mediana  utilizata in metodele de comparatie
 distributie simetrica  media + mediana au aprox. aceeasi valoare
 distributie asimetrica la dreapta  media > mediana
 distributie asimetrica la stanga  mediana > media
* se datoreaza faptului ca valoarea din coada distributiei afecteaza media, nu mediana
(cresterea val. celor mai mari observatii  cresterea mediei)
 media +mediana = masuri de tendinta centrala, incearca sa determine pozitia de mijloc a
distributiei
 variabilitatea:
 e necesara o masura pentru imprastiere, dispersie sau variabilitate a datelor din
distributie
 amplitudinea = diferenta dintre cea mai mare si cea mai mica valoare
 utila dpdv descriptiv
 dezavantaje: depinde de valorile extreme (variaza mult de la un esantion la altul)
si de marimea esantionului (esantion mare  extreme departate una de
cealalta)  se poate rezolva dependenta de marimea esantionului prin utilizarea
amplitudinii intercuartile/ IQR- interquartile range (=diferenta intre prima si a
treia cuartila)
 varianta/ dispersia: media aritmetica a patratelor diferentelor dintre observatii si
media lor
 nu se poate calcula la o observatie  media = observatia insasi, diferenta fiind
nula  necesare cel putin 2 observatii
 suma patratelor diferentelor fata de medie d.p cu numarul observatiilor -1 =
grade de libertate
 estimata ca fiind suma patratelor diferentelor fata de medie impartita prin gradele
de libertate
 se bazeaza pe patratul valorilor observatiilor  unitatile de masura sunt
exprimate in unitatile de masura initiale la patrat  diferite de unitatile de
masura ale observatiilor
 abaterea standard: SD (standard deviation), radacina patrata din varianta sau
dispersie
 notata, de obicei, cu s

 media mai mica decat 2 abateri standard  media-2s < 0  distributie pozitiv simetrica
 media/ mediana apropiate ca valori de una dintre limitele amplitudinii / amplitudinii
intercuartile  apropiate de lim. inf  distributie pozitiv asimetrica
 apropiate de lim. sup  distributie negativ asimetrica
 regula empirica merge doar unidirectional, adica media poate sa depaseasca 2 abateri
standard si distributia sa fie totusi asimetrica

S-ar putea să vă placă și