Sunteți pe pagina 1din 17

CURSUL 1

Date, frecvențe și distribuții

„...gândirea statistică va deveni într-o zi la fel de necesară pentru un cetăţean eficient,


la fel ca şi abilitatea de a citi şi a scrie”.

H.G. Wells (1866-1946)


–domeniu al matematicii cu ramuri aplicative
–recoltarea, descrierea şi analizarea datelor în vederea extragerii unor concluzii pe
baza acestora
–operează cu date numerice care descriu realitatea din jurul nostru
•Datele
–informaţii obţinute prin categorializare, numărare sau măsurare, pe baza utilizării
unor metode adecvate
Observație Un nou tratament în ICC

Definirea problemei Este eficient noul tratament?

Terapeutul: DA
Ipoteză Cercetătorul: ????

Date Măsurăm eficacitatea tratamentului pe 2 grupuri

Testarea ipotezei Compararea mediilor

Respingere Acceptare Este/Nu este diferența semnificativă?

Publicare/Concluzie Publicarea concluziei într-un anumit format


Date, frecvențe și distribuții
TIPURI DE DATE

Variabila – termen folosit pentru a defini o calitate sau cantitate, cu


valori diferite de la o populaţie la alta sau de la un individ la altul (în
cadrul unui eșantion)

Exemplul 1 – valoarea concentrației glucozei în sânge = variabilă ce


poate avea valori diferite între diferite persoane, dar şi între diferite
măsurători la aceeaşi persoană

Exemplul 2 – variabila sex – în cadrul unei populații/eșantion, indivizii


pot fi de sex masculin sau feminin
Calitative –pot lua câteva valori asociate unor clase (categorii)
diferite / când indivizii aparțin unor clase separate
• Variabila calitativă mai este denumită și variabilă categorială sau variabilă de
clasificare.
• Exemplu: Diagnosticul sau Sexul (feminin sau masculin)

Cantitative - sunt cifre (numere) ce pot fi obținute prin


numărare / pot fi rezultatul unor măsurători.
• Ex: Orice variabilă a cărei valoare poate fi exprimată în cifre este o variabilă cantitativă
• Variabilele cantitative pot fi :
• Discrete sau Discontinue – variabile ce pot fi descrise numai prin unități întregi ce nu pot fi măsurate în
intervale mai mici decât unitatea. Variabilele pot lua doar câteva valori separate, de ce mai multe ori numere
întregi (Ex: Nr. de nașteri, frecvența cardiacă)
• Continue – variabile cu un număr potențial infinit de valori în cadrul unui continuum. Valorile măsurătorilor
pot lua orice număr dintr-un interval (Ex: Greutatea, TA, etc.)
DISTRIBUȚII DE FRECVENȚĂ

a) pentru variabilele calitative

Indicatori utilizați:
- frecvenţa unei categorii: numărul de persoane care aparțin unei anumite categorii
- frecvența relativă (numită și frecvenţă proporţională ): reprezintă proporţia pacienților care aparțin unei anumite categorii
raportată la totalul pacienților incluși într-un studiu
- distribuţia de frecvenţă: mulțimea valorilor frecvenţelor pentru toate categoriile posibile
- frecvenţa cumulată: procentul de indivizi ce se găsesc până la sau sub o treaptă (valoare) a scalei.
Definiție alternativă: Frecvenţa cumulată pentru o valoare a unei variabile reprezintă numărul de indivizi cu valori mai mici sau
egale cu această valoare.
- frecvenţa cumulată relativă = proporţia de indivizi din eşantion cu valori mai mici sau egale cu această valoare

b) pentru variabilele cantitative


- se poate obţine distribuţia de frecvenţe a unei variabile cantitative discrete prin determinarea numărului de apariții pentru
fiecare valoare pe care aceasta o poate avea.
- în cazul unei variabile cantitative continue - pentru a obţine o distribuţie de frecvenţă este util să se împartă scala (sau plaja de
valori) în intervale (clase)
GRAFICE REFERITOARE LA FRECVENȚE - HISTOGRAME

Histograma = reprezentare grafică a frecvenţei de apariţie a unui anumit parametru într-o populaţie/grup; grafic care arată o
distribuţie de frecvenţă.
-Histograma este o imagine a distribuţiei valorilor unui anumit parametru
-Histogramele sunt printre cele mai importante grafice în statistică, deoarece sunt bogate în informaţie despre distribuţia
valorilor pe o coloană numerică
-Intervalele parametrului, ordonate crescător sunt reprezentate pe abscisă, iar pe ordonată este reprezentată frecvenţa de
apariţie
- Histogramele care reprezintă frecvenţele relative au aceeaşi alură cu cele care reprezintă frecvenţele absolute, dar au
avantajul că pot fi utilizate pentru comparaţii de distribuţii în populaţii diferite
Densitatea de frecvență reprezintă nr. de observații pe unitatea de variabilă / frecvenţa împărţită la lăţimea intervalului
respectiv.
(Utilitate: permite folosirea intervalelor de dimensiuni diferite)
Poligonul de frecvenţă - variaţie a histogramei în care este prezentată și distribuţia variabilei respective suprapusă pe graficul
frecvențelor, sub formă de linie; util atunci când trebuie să prezentăm mai multe distribuţii de frecvență (pentru mai multe
variabile care au aceleași unități de măsură sau se raportează la aceleași intervale) folosind aceleaşi axe.
FORMA DISTRIBUȚIILOR DE FRECVENȚĂ

Modul reprezintă valoarea cea mai frecvent întâlnită în cadrul distribuţiei


În general nesigur, mai ales în cazul eşantioanelor mici, când se poate modifica dramatic la o modificare minoră a unei valori;
Poate fi greşit interpretat. Se identifică total cu un scor anume, fără a spune nimic despre celelalte valori;
Cozile - reprezentate de extremitățile distribuţiei de frecvență, acolo unde observaţiile sunt, de obicei rare
Distribuţia unimodală - distribuția are un singur mod (o singură categorie cu frecvența maximă); majoritatea datelor medicale
au distributii unimodale
Distribuție bimodală - distribuția în care există și un al doilea modul de distribuţie (interval modal)
Distribuţiile cu mai mult de un modul - rare în datele provenite din domeniul sănătății; atunci când se întâlnește o astfel de
distribuție, de obicei suspectăm existența mai multor populaţii mixate împreună. Considerăm distribuții bimodale distribuțiile
pentru care există o separare clară a vârfurilor

Modul și cozile unei distribuții unimodale Distribuție bimodală


Distribuţia simetrică - coada din extremitatea dreaptă are o lungime
similară cu cea din stânga; cozile trebuie să fie doar aproximativ
aceleaşi; forma exactă depinde de alegerea celui care realizează analiza
statistică în ceea ce privește punctul de plecare şi mărimea intervalului
pentru orice reprezentare

Distribuţia asimetrică la dreapta sau pozitiv asimetrică - coada


din extremitatea dreaptă este mai mare decât coada din
extremitatea stângă

Majoritatea datelor medicale urmează o distribuție, fie simetrică, fie pozitiv


asimetrică

Distribuţia asimetrică la stânga sau negativ asimetrică - coada


din stânga este mai mare decât coada din dreapta
SINTETIZAREA DATELOR
MEDIANE ȘI CUARTILE

Mediana - valoarea din mijlocul unei distribuţii – are 50% dintre valori deasupra ei şi 50% dintre valori dedesubtul ei
- Poate să nu corespundă unei valori reale (N par);
- Nu reflectă valorile distribuţiei (un scor extrem se poate modifica, fără a afecta Mediana);
- Este mai puţin sigură în extrapolarea de la eşantion la populaţie;
- Greu de utilizat în statistici avansate
Quantilele sunt valori numerice care împart setul de date în q grupe egale. Constanta q se numește ordinul
quantilei. Mediana este quantila de ordinul doi.
Quantilele de ordinul patru împart setul de date în patru grupe egale și se numesc quartile. Quartilele sunt în număr
de trei, notate de obicei cu Q1, Q2, Q3.
Prima quartilă Q1 este reprezentată de valoarea care delimitează primul sfert de distribuţie.
Quartila Q2 este chiar mediana.
Cea de-a treia cuartilă Q3 este valoarea situată la limita dintre primele trei sferturi de distribuţie și ultimul sfert.
Cele trei cuartile împart distribuţia în patru părţi egale. Astfel, prima cuartilă lasă la stânga un sfert din observațiile
obținute (un sfert din observații sunt mai mici decât ea), cea de-a treia cuartilă lasă la stânga trei sferturi din
observaţiile obținute (adică trei sferturi din observații sunt mai mici decât ea). Cea de-a doua cuartilă lasă la stânga
două sferturi, adică jumătate, din observaţii (jumatate din observații sunt mai mici decat ea) și este de fapt mediana.
Alte categorii de quantile folosite sunt:

- decilele care împart setul de date în 10 grupe egale.


- centilele care împart setul de date în 100 grupe egale.
- promilele care împart setul de date în 1000 grupe egale

Astfel, putem împărţi distribuţia în 100 de părţi egale adică în centile sau percentile, iar punctul care delimitează
20% din observaţii va fi centila numărul 20 sau a 20-a percentilă.

Pe de altă parte, numărul unei centile nu trebuie să fie obligatoriu o valoare întreagă. Vorbim adesea, de exemplu,
despre centila a 2.5-a, aceasta reprezentând o valoare care lasă în stânga 2.5% dintre subiecți.
MEDIA
 o altă modalitate de a identifica mijlocul unei distribuţii
 cel mai frecvent se întâlnește media aritmetică
 se poate calcula prin însumarea tuturor observaţiilor şi împărţirea sumei obținute
la numărul acestora

Media utilizează toate valorile observate, fiecare dintre acestea contribuind în mod egal la calculul acesteia.

În cazul medianei valorile observate la extreme au un efect foarte redus asupra sa; valorile acestora pot fi modificate destul de
mult fără ca mediana să fie afectată.

!!!TAKING HOME MESSAGE!!! - media utilizează informaţiile mai eficient decât mediana; astfel se modifică mai puțin de la un
eșantion la altul în comparație cu mediana.

Când distribuţia este simetrică, valoarea mediei şi valoarea medianei vor fi aproximativ aceleași. Într-o distribuţie asimetrică,
media şi mediana vor fi de obicei diferite
Distribuţia este asimetrică la dreapta - valoarea mediei va fi de obicei mai mare decât valoarea medianei
Distribuţia este asimetrică la stânga - valoarea medianei va fi de obicei mai mare decât cea a mediei.

Acest lucru se datorează faptului că valorile din coada distribuției afectează valoarea mediei și nu afectează valoarea medianei.
MĂSURAREA VARIABILITĂȚII FOLOSIND AMPLITUDINEA

Media şi mediana - indicatori de tendinţă centrală (încearcă să determine poziția de mijloc dintr-o distribuţie)

Amplitudinea - măsură pentru împrăștiere, dispersie sau variabilitate a datelor din cadrul distribuției
- diferența dintre cea mai mare și cea mai mică valoare
- măsură utilă din punct de vedere descriptiv

Dezavantaje:
1. depinde doar de valorile extreme care pot varia foarte mult de la un eșantion la altul
2. depinde și de mărimea eșantionului (eșantion mai mare - extremele sunt susceptibile de a fi departe una de
cealaltă)

Amplitudinea intercuartile (interquartile range sau IQR) - diferența dintre prima şi a treia cuartilă (este folosită
aproape întotdeauna doar ca o statistică descriptivă, ca și amplitudinea)
Amplitudine de 95% - amplitudine situată între centila 2.5 şi centila 97.5; calculul ei necesită un eșantion mare – nu
se folosește ca statistică descriptivă
MĂSURAREA VARIABILITĂȚII FOLOSIND VARIANȚA
Abaterea față de medie - diferența dintre medie și fiecare valoare observată

 abateri față de medie mari - variabilitatea valorilor observate – ridicată


 abateri față de medie mici - variabilitatea valorilor observate – redusă (valorile observate sunt asemănătoare
între ele)

Media abaterilor – nu reprezintă un indicator potrivit pentru variabilitate (unele valori observate vor fi mai mari
decât media - abateri pozitive, altele vor fi mai mici decât media - abateri negative)

Suma abateri pozitive + negative= zero

Se folosește suma pătratelor abaterilor față de medie (sumă de pătrate)


 date cu variabilitate extremă - suma de pătrate ale abaterilor față de medie = mare
 date cu variabilitate redusă - suma de pătrate ale abaterilor față de medie = mică
Suma de pătrate - depinde de dimensiunea eșantionului
- indicatorul statistic pe care dorim să îl obținem este o medie, nu o sumă
Suma pătratelor diferențelor față de medie – proporțională cu numărul observațiilor minus 1 –
valoare cunoscută sub numele de grade de libertate (suma pătratelor abaterilor față de medie
nu poate să fie proporțională cu numărul de observații din eșantion - la o dimensiune a
eșantionului de o observație, suma de pătrate este întotdeauna zero)

Varianța se estimează ca media pătratelor abaterilor față de medie - un raport între suma de
pătrate împărțită la numărul de observații minus unu (la numărul de grade de libertate pentru
varianță)

Varianța eșantionului este suma pătratelor abaterilor față de medie împărțită la gradele de
libertate
MĂSURAREA VARIABILITĂȚII FOLOSIND DEVIAȚIA STANDARD
Varianța se bazează pe pătratul valorilor observațiilor (unitățile de măsură pentru varianță – exprimate în unitățile de
măsură inițiale la pătrat).

Dacă însă vom extrage rădăcina pătrată din varianţă, indicatorul rezultat va fi cuantificat în aceleaşi unităţi de măsură ca şi
observaţiile originale.

Indicatorul care rezultă din extragerea rădăcinii pătrate din varianţă se numeşte abatere standard sau SD (Standard
deviation) și de obicei se notează cu s.

Pentru cele mai multe tipuri de distribuţii, aproximativ două treimi (65%) din valorile observate se află la o deviație
standard (SD) față de medie, iar majoritatea (aproximativ 95%) se încadrează în aproximativ două deviații standard (2xSD)
față de medie. Informațiile poziționate în afara acestui interval pot fi toate, fie spre limita inferioară, fie spre cea
superioară, fie distribuite în mod egal între cele două limite.

Distribuție asimetrică – media sau mediana sunt apropiate ca valori de una din limitele amplitudinii sau amplitudinii
intercuartile

Media sau mediana – apropiate de limita inferioară – distribuție pozitiv asimetrică


Media sau mediana – apropiate de limita superioară – distribuție negativ asimetrică

S-ar putea să vă placă și