Sunteți pe pagina 1din 17

CURSUL 1

Date, frecvene i distribuii

...gndirea statistic va deveni ntr-o zi la fel de necesar pentru un cetean eficient,


la fel ca i abilitatea de a citi i a scrie.
H.G. Wells (1866-1946)

domeniu al matematicii cu ramuri aplicative


recoltarea, descrierea i analizarea datelor n vederea extragerii unor concluzii pe
baza acestora
opereaz cu date numerice care descriu realitatea din jurul nostru
Datele
informaii obinute prin categorializare, numrare sau msurare, pe baza utilizrii
unor metode adecvate

Observaie

Un nou tratament n ICC

Definirea problemei

Este eficient noul tratament?

Ipotez

Terapeutul: DA
Cercettorul: ????

Date

Msurm eficacitatea tratamentului pe 2 grupuri

Testarea ipotezei

Compararea mediilor

Respingere

Acceptare

Publicare/Concluzie

Este/Nu este diferena semnificativ?

Publicarea concluziei ntr-un anumit format

Date, frecvene i distribuii

TIPURI DE DATE
Variabila termen folosit pentru a defini o calitate sau cantitate, cu
valori diferite de la o populaie la alta sau de la un individ la altul (n
cadrul unui eantion)
Exemplul 1 valoarea concentraiei glucozei n snge = variabil ce
poate avea valori diferite ntre diferite persoane, dar i ntre diferite
msurtori la aceeai persoan
Exemplul 2 variabila sex n cadrul unei populaii/eantion, indivizii
pot fi de sex masculin sau feminin

Calitative pot lua cteva valori asociate unor clase (categorii)


diferite / cnd indivizii aparin unor clase separate
Variabila calitativ mai este denumit i variabil categorial sau variabil de
clasificare.
Exemplu: Diagnosticul sau Sexul (feminin sau masculin)

Cantitative - sunt cifre (numere) ce pot fi obinute prin


numrare / pot fi rezultatul unor msurtori.
Ex: Orice variabil a crei valoare poate fi exprimat n cifre este o variabil cantitativ
Variabilele cantitative pot fi :
Discrete sau Discontinue variabile ce pot fi descrise numai prin uniti ntregi ce nu pot fi msurate n
intervale mai mici dect unitatea. Variabilele pot lua doar cteva valori separate, de ce mai multe ori numere
ntregi (Ex: Nr. de nateri, frecvena cardiac)
Continue variabile cu un numr potenial infinit de valori n cadrul unui continuum. Valorile msurtorilor
pot lua orice numr dintr-un interval (Ex: Greutatea, TA, etc.)

DISTRIBUII DE FRECVEN
a) pentru variabilele calitative
Indicatori utilizai:
- frecvena unei categorii: numrul de persoane care aparin unei anumite categorii
- frecvena relativ (numit i frecven proporional ): reprezint proporia pacienilor care aparin unei anumite categorii
raportat la totalul pacienilor inclui ntr-un studiu
- distribuia de frecven: mulimea valorilor frecvenelor pentru toate categoriile posibile
- frecvena cumulat: procentul de indivizi ce se gsesc pn la sau sub o treapt (valoare) a scalei.
Definiie alternativ: Frecvena cumulat pentru o valoare a unei variabile reprezint numrul de indivizi cu valori mai mici sau
egale cu aceast valoare.
- frecvena cumulat relativ = proporia de indivizi din eantion cu valori mai mici sau egale cu aceast valoare
b) pentru variabilele cantitative
- se poate obine distribuia de frecvene a unei variabile cantitative discrete prin determinarea numrului de apariii pentru
fiecare valoare pe care aceasta o poate avea.
- n cazul unei variabile cantitative continue - pentru a obine o distribuie de frecven este util s se mpart scala (sau plaja de
valori) n intervale (clase)

GRAFICE REFERITOARE LA FRECVENE - HISTOGRAME

Histograma = reprezentare grafic a frecvenei de apariie a unui anumit parametru ntr-o populaie/grup; grafic care arat o
distribuie de frecven.
-Histograma este o imagine a distribuiei valorilor unui anumit parametru
-Histogramele sunt printre cele mai importante grafice n statistic, deoarece sunt bogate n informaie despre distribuia
valorilor pe o coloan numeric
-Intervalele parametrului, ordonate cresctor sunt reprezentate pe abscis, iar pe ordonat este reprezentat frecvena de
apariie
- Histogramele care reprezint frecvenele relative au aceeai alur cu cele care reprezint frecvenele absolute, dar au
avantajul c pot fi utilizate pentru comparaii de distribuii n populaii diferite
Densitatea de frecven reprezint nr. de observaii pe unitatea de variabil / frecvena mprit la limea intervalului
respectiv.
(Utilitate: permite folosirea intervalelor de dimensiuni diferite)
Poligonul de frecven - variaie a histogramei n care este prezentat i distribuia variabilei respective suprapus pe graficul
frecvenelor, sub form de linie; util atunci cnd trebuie s prezentm mai multe distribuii de frecven (pentru mai multe
variabile care au aceleai uniti de msur sau se raporteaz la aceleai intervale) folosind aceleai axe.

FORMA DISTRIBUIILOR DE FRECVEN


Modul reprezint valoarea cea mai frecvent ntlnit n cadrul distribuiei
n general nesigur, mai ales n cazul eantioanelor mici, cnd se poate modifica dramatic la o modificare minor a unei valori;
Poate fi greit interpretat. Se identific total cu un scor anume, fr a spune nimic despre celelalte valori;
Cozile - reprezentate de extremitile distribuiei de frecven, acolo unde observaiile sunt, de obicei rare
Distribuia unimodal - distribuia are un singur mod (o singur categorie cu frecvena maxim); majoritatea datelor medicale
au distributii unimodale
Distribuie bimodal - distribuia n care exist i un al doilea modul de distribuie (interval modal)
Distribuiile cu mai mult de un modul - rare n datele provenite din domeniul sntii; atunci cnd se ntlnete o astfel de
distribuie, de obicei suspectm existena mai multor populaii mixate mpreun. Considerm distribuii bimodale distribuiile
pentru care exist o separare clar a vrfurilor

Modul i cozile unei distribuii unimodale

Distribuie bimodal

Distribuia simetric - coada din extremitatea dreapt are o lungime


similar cu cea din stnga; cozile trebuie s fie doar aproximativ
aceleai; forma exact depinde de alegerea celui care realizeaz analiza
statistic n ceea ce privete punctul de plecare i mrimea intervalului
pentru orice reprezentare

Distribuia asimetric la dreapta sau pozitiv asimetric - coada


din extremitatea dreapt este mai mare dect coada din
extremitatea stng
Majoritatea datelor medicale urmeaz o distribuie, fie simetric, fie pozitiv
asimetric

Distribuia asimetric la stnga sau negativ asimetric - coada


din stnga este mai mare dect coada din dreapta

SINTETIZAREA DATELOR
MEDIANE I CUARTILE
Mediana - valoarea din mijlocul unei distribuii are 50% dintre valori deasupra ei i 50% dintre valori dedesubtul ei
- Poate s nu corespund unei valori reale (N par);
- Nu reflect valorile distribuiei (un scor extrem se poate modifica, fr a afecta Mediana);
- Este mai puin sigur n extrapolarea de la eantion la populaie;
- Greu de utilizat n statistici avansate
Quantilele sunt valori numerice care mpart setul de date n q grupe egale. Constanta q se numete ordinul
quantilei. Mediana este quantila de ordinul doi.
Quantilele de ordinul patru mpart setul de date n patru grupe egale i se numesc quartile. Quartilele sunt n numr
de trei, notate de obicei cu Q1, Q2, Q3.
Prima quartil Q1 este reprezentat de valoarea care delimiteaz primul sfert de distribuie.
Quartila Q2 este chiar mediana.
Cea de-a treia cuartil Q3 este valoarea situat la limita dintre primele trei sferturi de distribuie i ultimul sfert.
Cele trei cuartile mpart distribuia n patru pri egale. Astfel, prima cuartil las la stnga un sfert din observaiile
obinute (un sfert din observaii sunt mai mici dect ea), cea de-a treia cuartil las la stnga trei sferturi din
observaiile obinute (adic trei sferturi din observaii sunt mai mici dect ea). Cea de-a doua cuartil las la stnga
dou sferturi, adic jumtate, din observaii (jumatate din observaii sunt mai mici decat ea) i este de fapt mediana.

Alte categorii de quantile folosite sunt:


- decilele care mpart setul de date n 10 grupe egale.
- centilele care mpart setul de date n 100 grupe egale.
- promilele care mpart setul de date n 1000 grupe egale
Astfel, putem mpri distribuia n 100 de pri egale adic n centile sau percentile, iar punctul care delimiteaz
20% din observaii va fi centila numrul 20 sau a 20-a percentil.
Pe de alt parte, numrul unei centile nu trebuie s fie obligatoriu o valoare ntreag. Vorbim adesea, de exemplu,
despre centila a 2.5-a, aceasta reprezentnd o valoare care las n stnga 2.5% dintre subieci.

MEDIA
o alt modalitate de a identifica mijlocul unei distribuii
cel mai frecvent se ntlnete media aritmetic
se poate calcula prin nsumarea tuturor observaiilor i mprirea sumei obinute
la numrul acestora
Media utilizeaz toate valorile observate, fiecare dintre acestea contribuind n mod egal la calculul acesteia.

n cazul medianei valorile observate la extreme au un efect foarte redus asupra sa; valorile acestora pot fi modificate destul de
mult fr ca mediana s fie afectat.
!!!TAKING HOME MESSAGE!!! - media utilizeaz informaiile mai eficient dect mediana; astfel se modific mai puin de la un
eantion la altul n comparaie cu mediana.
Cnd distribuia este simetric, valoarea mediei i valoarea medianei vor fi aproximativ aceleai. ntr-o distribuie asimetric,
media i mediana vor fi de obicei diferite
Distribuia este asimetric la dreapta - valoarea mediei va fi de obicei mai mare dect valoarea medianei
Distribuia este asimetric la stnga - valoarea medianei va fi de obicei mai mare dect cea a mediei.
Acest lucru se datoreaz faptului c valorile din coada distribuiei afecteaz valoarea mediei i nu afecteaz valoarea medianei.

MSURAREA VARIABILITII FOLOSIND AMPLITUDINEA


Media i mediana - indicatori de tendin central (ncearc s determine poziia de mijloc dintr-o distribuie)
Amplitudinea - msur pentru mprtiere, dispersie sau variabilitate a datelor din cadrul distribuiei
- diferena dintre cea mai mare i cea mai mic valoare
- msur util din punct de vedere descriptiv

Dezavantaje:
1. depinde doar de valorile extreme care pot varia foarte mult de la un eantion la altul
2. depinde i de mrimea eantionului (eantion mai mare - extremele sunt susceptibile de a fi departe una de
cealalt)

Amplitudinea intercuartile (interquartile range sau IQR) - diferena dintre prima i a treia cuartil (este folosit
aproape ntotdeauna doar ca o statistic descriptiv, ca i amplitudinea)
Amplitudine de 95% - amplitudine situat ntre centila 2.5 i centila 97.5; calculul ei necesit un eantion mare nu
se folosete ca statistic descriptiv

MSURAREA VARIABILITII FOLOSIND VARIANA


Abaterea fa de medie - diferena dintre medie i fiecare valoare observat
abateri fa de medie mari - variabilitatea valorilor observate ridicat
abateri fa de medie mici - variabilitatea valorilor observate redus (valorile observate sunt asemntoare
ntre ele)

Media abaterilor nu reprezint un indicator potrivit pentru variabilitate (unele valori observate vor fi mai mari
dect media - abateri pozitive, altele vor fi mai mici dect media - abateri negative)
Suma abateri pozitive + negative= zero
Se folosete suma ptratelor abaterilor fa de medie (sum de ptrate)
date cu variabilitate extrem - suma de ptrate ale abaterilor fa de medie = mare
date cu variabilitate redus - suma de ptrate ale abaterilor fa de medie = mic
Suma de ptrate - depinde de dimensiunea eantionului
- indicatorul statistic pe care dorim s l obinem este o medie, nu o sum

Suma ptratelor diferenelor fa de medie proporional cu numrul observaiilor minus 1


valoare cunoscut sub numele de grade de libertate (suma ptratelor abaterilor fa de medie
nu poate s fie proporional cu numrul de observaii din eantion - la o dimensiune a
eantionului de o observaie, suma de ptrate este ntotdeauna zero)
Variana se estimeaz ca media ptratelor abaterilor fa de medie - un raport ntre suma de
ptrate mprit la numrul de observaii minus unu (la numrul de grade de libertate pentru
varian)
Variana eantionului este suma ptratelor abaterilor fa de medie mprit la gradele de
libertate

MSURAREA VARIABILITII FOLOSIND DEVIAIA STANDARD


Variana se bazeaz pe ptratul valorilor observaiilor (unitile de msur pentru varian exprimate n unitile de
msur iniiale la ptrat).
Dac ns vom extrage rdcina ptrat din varian, indicatorul rezultat va fi cuantificat n aceleai uniti de msur ca i
observaiile originale.

Indicatorul care rezult din extragerea rdcinii ptrate din varian se numete abatere standard sau SD (Standard
deviation) i de obicei se noteaz cu s.
Pentru cele mai multe tipuri de distribuii, aproximativ dou treimi (65%) din valorile observate se afl la o deviaie
standard (SD) fa de medie, iar majoritatea (aproximativ 95%) se ncadreaz n aproximativ dou deviaii standard (2xSD)
fa de medie. Informaiile poziionate n afara acestui interval pot fi toate, fie spre limita inferioar, fie spre cea
superioar, fie distribuite n mod egal ntre cele dou limite.
Distribuie asimetric media sau mediana sunt apropiate ca valori de una din limitele amplitudinii sau amplitudinii
intercuartile

Media sau mediana apropiate de limita inferioar distribuie pozitiv asimetric


Media sau mediana apropiate de limita superioar distribuie negativ asimetric