Sunteți pe pagina 1din 32

Statistica si

tipuri de date

Indicatori
statistici
Statistica si Tipuri de
date
 Definiţii
 Colectarea datelor - principii
 Clasificarea datelor - tipuri de date
 Prezentarea datelor –
 Tipuri de tabele
 Tipuri de grafice
Definiţie
Statistica este ştiinţa
 colectării,
 clasificării,
 prezentării,

 interpretării
datelor şi a folosirii acestora pentru
 a formula concluzii şi
 a lua decizii.
Clasificare

 Statistica descriptivă se ocupă cu


colectarea, clasificarea şi prezentarea
datelor numerice.
 Statistica inferenţială (inferential
statistics) se ocupă cu interpretarea
datelor oferite de statistica descriptivă
şi cu folosirea acestora pentru a
formula concluzii şi a lua decizii.
Notiuni de baza
 Biostatistica este ştiinţa care se ocupă cu aplicarea
metodelor statisticii în ştiinţele vieţii
 Vom numi populaţie statistică o mulţime de elemente
care au una sau mai multe însuşiri comune şi care fac
obiectul unei cercetări statistice
 Vom numi individ statistic un element al unei populaţii
statistice indiferent de natura acesteia
 O caracteristică care se schimbă de la individ la individ
sau la acelaşi individ în timp sau ca răspuns la condiţiile
de mediu, de boală de medicaţie, etc, se numeşte
variabilă
Colectarea datelor

PRINCIPIU DE BAZĂ
PRINCIPIUL ATOMICITĂŢII
Informaţia care se introduce într-o
celulă a unui tabel trebuie să nu mai
poată fi descompusă în informaţii mai
simple
Ex:
Design-ul tabelelor
- recomandări
 Să se numeroteze liniile tabelului,
indiferent dacă softul o face automat
 Să nu se unească mai multe celule
pentru a grupa mai multe
coloane/linii
 Să nu se facă câte un tabel separat
pentru fiecare categorie mai
importantă de pacienţi
Clasificarea datelor
Tipuri de date
 Date numerice, întregi sau zecimale –
vârstă, greutate, talie, hemoglobină, transaminaze,
calcemie, glicemie, etc
 Date ordinale – stadiul evolutiv, starea la
externare, gradul de rudenie, etc. Codurile folosite
au o ordine
 Date nominale – codul bolii, grupa sanguină,
consistenţa ficatului, culoarea urinei, etc. Codurile
folosite NU au o ordine
 Date alfanumerice – nume, prenume,
adresă, loc de muncă, descrierea bolii, în general
texte sau alte simboluri
Tabel de date
NR. CRT. ANUL NUMELE PRENUMELE SEXUL MEDIUL VARSTA DECADA PROFESIA STADIU
1 2008 CALOTA LUCIA F RURAL 62 60-69 FARA OCUPATIE III
2 2009 CONSTANTIN MARIN M URBAN 55 50-59 FARA OCUPATIE III
3 2007 FLOREA ELENA F RURAL 83 80-89 PENSIONAR II
4 2009 HOLT MARIANA F URBAN 65 60-69 PENSIONAR I
5 2010 IVANESCU VIRGIL M RURAL 64 60-69 PENSIONAR II
6 2012 LEPADAT MARIN M URBAN 68 60-69 PENSIONAR III
7 2011 MANOLACHE EUGENIA F RURAL 39 30-39 SALARIAT IV
8 2010 MARINESCU DAN M RURAL 57 50-59 PENSIONAR IV
9 2008 STAN SANDU M URBAN 53 50-59 PENSIONAR V
10 2007 NEAGU MARIA M URBAN 53 50-59 PENSIONAR III
11 2008 NEDELEA GHEORGHE F RURAL 70 70-79 PENSIONAR II
12 2009 ORZESCU ION M URBAN 71 70-79 PENSIONAR V
13 2011 PALIU MARIN F RURAL 76 70-79 PENSIONAR IV
14 2013 PISICA MIHAIL F RURAL 72 70-79 PENSIONAR III
15 2010 POPESCU PETRE M URBAN 58 50-59 PENSIONAR IV
16 2012 PREDA ION M RURAL 45 40-49 SALARIAT V
17 2009 ALBU NICOLAE M RURAL 45 40-49 SALARIAT V
18 2008 RADUCAN ELISABETA M URBAN 62 60-69 FARA OCUPATIE IV
19 2010 RADUCEANU ION M URBAN 39 30-39 FARA OCUPATIE III
20 2012 IONESCU MARIA M URBAN 39 30-39 FARA OCUPATIE IV
Prezentarea datelor
Tabele de frecvenţă
Nr. Clasa Fi fi

1 25 - 30 5 2.14%
2 30 - 35 6 2.56%
3 35 - 40 9 3.85%
4 40 - 45 26 11.11%
5 45 - 50 30 12.82%
6 50 - 55 50 21.37%
7 55 - 60 53 22.65%
8 60 - 65 32 13.68%
9 65 - 70 14 5.98%
10 70 - 75 5 2.14%
11 75 - 80 4 1.71%
Total 234 100%

Numărul de indivizi = Procentul din total=


frecvenţa absolută frecvenţa relativă
Tabele de frecvenţă - exemplu
Supravieţiurea în cancerul de sân

 2456 pacienţi
 Clase de supravieţuire
 Clase din 12 in 12 luni

Uneori, datele sunt centralizate ca în


tabelul de mai sus.
Reprezentarea datelor sub forma unui
grafic (ex: histogramă) le face mult mai
uşor de înţeles.
Prezentarea datelor
Tabele de incidenţă

 Pacienţii cu diabet zaharat pot avea retinopatia


şi nefropatia ca şi complicaţii majore
 Spunem că avem o potrivire dacă
ambele complicaţii sunt prezente sau absente
 În acest tabel sunt 29 potriviri + cu + (celula
a) şi 172 potriviri – cu – (celula d)
Tabele de incidenţă

Tabelul de corelaţie între vârstele mirilor şi mireselor din judeţul Dolj,


din anul 1998.
Pe orizontală, vârstele mirilor, iar pe verticală, vârstele mireselor
În fiecare celulă este înscris numărul cuplurilor cu vârstele cuprinse în
categoriile respective.
Există o corelaţie între vârstele mirilor şi mireselor? Evident, DA!
Cele mai multe cazuri se regăsesc pe diagonala principală a tabelului!
Prezentarea datelor - grafice

Femei
175 25
41.87% Bărbaţi 25 21
243
58.13% 18
20
14
15 12

10

5
Rural
180 0
Urban 43.06%
238 2006 2007 2008 2009 2010
56.94% Anul internării

Graficul cu coloane/bare

Graficul circular - Pie


Prezentarea datelor - grafice

Corelaţia dintre valorile


100
VSH la 1 oră şi 2 ore
90

80
70

60
50

40
30

20

Graficul liniar 10

0
(de evoluţie) 0 10 20 30 40 50 60 70 80 90 100
VSH 1 ora

Graficul XY (scatter)
DATE DATE
NUMERICE ALFANUMERICE

POPULAŢIE

√ √

INDIVID √ √

EŞANTION
DATE DATE
ORDINALE NOMINALE
Indicatori statistici

 Minim, maxim
 Media
 Deviaţia standard
 Mediana
 Cuartile
 Centile, decile
 Dispersie
 Abatere standard
Tabel de date
FO NUME PRENUME VIRSTA SEX MEDIU HVA ALCOOL
1 Voinea Radu 55 b u da da
2 Diaconescu Ion 54 b r nu da
3 Netcu Tudor 45 b r nu da
4 Dobrescu Ana 56 f r nu da
5 Cosmelita Ion 56 b r nu da
6 Iordanescu Elena 65 f u da nu
7 Craciunescu Misu 47 b r nu da
8 Nedelcu Maria 55 f u nu da
9 Radulescu Vasile 55 b r nu da
10 Armeanca Dumitru 55 b u da da
11 Dumitrana Alexandru 48 b u da da
12 Ignat Maria 50 f u nu da
13 Serbanescu Stefan 62 b u da nu
14 Fronie Sofica 28 f u da nu
15 Dobrinescu Florin 50 b r da da
16 Ciuta Maria 57 f r nu da
17 Busuioc Nicolita 65 f r da nu

De cele mai multe ori, datele pe care le înregistrăm despre


pacienţi se prezintă în tabele ca cel de mai sus
Indicatorii pentru serii de date
 Dacă am înregistrat valorile unui
parametru la mai mulţi indivizi, le
considerăm o
Serie de valori (de date) = Serie statistică

 Tensiune art.: 12,5; 13,5; 15,3; 16,4; 11,7,.....etc


 Vârsta: 36; 54; 73; 46; 31; 46; .....etc
 Vom scrie astfel:
 X: x1, x2, x3,.......xn
 Y: y1, y2, y3,.......ym
Minimul şi maximul

 X: 58, 74, 70, 71, 56, 68, 70, 82, 62, 62 (vârste)
Minim=56, Maxim=82

Y: 58, 74, 70, 71, 56, 68, 70, 82, 62, 62, 59, 46, 57, 71
(aceleaşi vârste şi încă 4)
Minim=46, Maxim=82

Amplitudinea absolută A = Max – Min = 36


Media aritmetică

 Media unei serii statistice este raportul dintre suma


valorilor seriei şi numărul lor.
 Media este indicatorul care arată tendinţa centrală a
seriei, şi de obicei arată unde tind datele să se
aglomereze.
Media mai multor valori egale este egală cu fiecare din
valori
Deşi se obţine din valori concrete, măsurate în practică,
media este un număr abstract
Calculul mediei,
influenţa unei valori extreme

 Seria Y este alcătuită din valorile lui X la


care se adaugă patru noi valori. Existenţa
valorii 46, extrem de mică, modifică media
sensibil
Formula mediei ponderate
 F1, F2, ...,Fm sunt frecvenţele
de apariţie în serie ale
valorilor x1, x2, ...,xm.
Calculul dispersiei
(Engl: variance)

 Este bine de reţinut că:


1. La medii aproximativ egale, este mai
împrăştiată seria cu dispersia mai mare.
2. La dispersii aproximativ egale, este mai
împrăştiată seria cu media mai mică.
Abaterea standard
(Engl: standard deviation)

Dispersia are dezavantaje:


1. Se exprimă cu unităţile de măsură ale variabilei, ridicate la
pătrat
2. Are în general valori foarte mari comparativ cu media.
De aceea se mai foloseşte un alt indicator, numit abatere
standard care este radicalul dispersiei. Se notează cu  şi
are deci formula:

 Abaterea standard = Abaterea medie pătratică


Exemplu de calcul

 Să presupunem că am măsurat zilnic tensiunea


arterială la doi pacienţi timp de 10 zile, obţinând
pentru fiecare următoarele valori pentru
tensiunea arterială maximă:

 170, 180, 160, 180, 190, 190, 180, 190, 170,


190, pentru primul pacient şi

 160, 170, 190, 160, 190, 190, 200, 180, 180,


180, pentru al doilea pacient.
Aranjarea calculelor

 Este mai împrăştiată seria Y, care are o abatere


standard de 13,3, faţă de 10,5 la seria X,
în condiţiile în care ambele serii au aceeaşi medie.
Coeficientul de variaţie

 Este raportul dintre deviaţia standard şi medie,


atunci când media este diferită de 0, şi se măsoară
în procente:

 Pentru seriile de mai sus, coeficientul de variaţie este


mai mare pentru cea mai împrăştiată, adică pentru
cea cu deviaţia standard mai mare:
1. C.V.x= 10,5 / 180 = 0,058 = 5,8 %.
2. C.V.y = 13,3 / 180 = 0,073 = 7,3%.
Indicatori de asimetrie
 Mediana (Engl: median) este o valoare, pentru
parametrul măsurat (greutate, înălţime etc.), situată la
mijlocul seriei de valori, dacă indivizii sunt ordonaţi
crescător sau descrescător.

 Jumătate din valori sunt mai mari decât mediana şi


jumătate mai mici.

 Cuartila Q1 este valoarea parametrului măsurat


pentru care un sfert din indivizi au valori mai mici şi
trei sferturi mai mari decât această valoare.

Analog, cuartila Q3 este valoarea faţă de care trei


sferturi din indivizi au valori mai mici şi un sfert - mai
mari.
Mediana – exemplu

Tensiunea arterială maximă la un bolnav în 10 zile

150,160,160, 170,160,170,150,160,170,160
Ordonând valorile crescător, obţinem:
150,150,160,160,160,160,160,170,170,170
În acest caz, mediana este între a cincea şi a şasea valoare din
şirul ordonat, adică 160
Dacă aceste două valori de mijloc diferă, considerăm mediana
ca fiind media lor aritmetică.
Dacă numărul de măsurători este impar
atunci mediana este chiar valoarea din mijloc.
Alţi indicatori statistici
 Decile. Pe eşantioane mai mari de multe sute de
indivizi. Sunt 9 decile, fiecare corespunzând unui
procent de 10%, 20%,……,90% din eşantion,
asemănător cuartilelor. Decila a 5-a este mediana.

 Centile. Folosite, în studii pe mii de cazuri, de obicei


de un interes mai larg, naţional, internaţional, şi sunt
corespunzătoare procentelor de 1%, 2%,…,99% din lot.
Centila a 50-a este mediana.
Prezentari
STUDII DE CAZ

S-ar putea să vă placă și