Sunteți pe pagina 1din 27

Prelucrarea datelor

Instrumentele de prelucrare
Curs 3
Tipuri de studii
• Studiul observaţional
– Se descrie distribuţia variabilelor
• Exemplu: prevalenţa HTA la populaţia de sex masculin,
vârsta peste 30 de ani, cu exces ponderal, din municipiul
Arad
• Studiul analitic
– Se demonstrează statistic una din 2 ipoteze:
• Ipoteza nulă: nu există asociaţie între variabila predictibilă şi
variabila rezultantă
• Ipoteza alternativă: există asociaţie între variabila predictivă
şi cea rezultantă
Definiţii

Statistica descriptivă se ocupă cu colectarea,


clasificarea şi prezentarea datelor numerice.

Statistica inferenţială (inferential statistics) se


ocupă cu interpretarea datelor oferite de
statistica descriptivă şi cu folosirea acestora
pentru a formula concluzii şi a lua decizii.
Statistica descriptivă
• Indicatorii care definesc o variabilă sunt:
• 1. Indicatori ai tendinţei centrale
– Media aritmetică
– Mediana
– Modul
2. Indicatorii de dispersie
– Amplitudinea
– Varianţa
– Abaterea standard (deviaţia standard)
– Coeficientul de variaţie
– Eroarea standard
Tabel de date
FO NUME PRENUME VIRSTA SEX MEDIU DIAGCOD HAV ALCOOL
1 Voinea Radu 55 b u CHAUD da da
2 Diaconescu Ion 54 b r CHA nu da
3 Netcu Tudor 45 b r CHA nu da
4 Dobrescu Ana 56 f r CHA nu da
5 Cosmelita Ion 56 b r CHA nu da
6 Iordanescu Elena 65 f u CHALB da nu
7 Craciunescu Misu 47 b r CHA nu da
8 Nedelcu Maria 55 f u CHAUD nu da
9 Radulescu Vasile 55 b r CHA nu da
10 Armeanca Dumitru 55 b u CHA da da
11 Dumitrana Alexandru 48 b u CHA da da
12 Ignat Maria 50 f u CHA nu da
13 Serbanescu Stefan 62 b u CHA da nu
14 Fronie Sofica 28 f u CHA da nu
15 Dobrinescu Florin 50 b r CHA da da
16 Ciuta Maria 57 f r CHA nu da
17 Busuioc Nicolita 65 f r CHA da nu

De cele mai multe ori, datele pe care le înregistrăm despre


pacienţi se prezintă în tabele ca cel de mai sus
Indicatorii pentru serii de date
 Dacă am înregistrat valorile unui
parametru la mai mulţi indivizi, le
considerăm o

Serie de valori (de date) = Serie statistică

 Hb: 12,5; 13,5; 15,3; 16,4; 11,7,.....etc


 Vârsta: 36; 54; 73; 46; 31; 46; .....etc
 Vom scrie astfel:
 X: x1, x2, x3,.......xn
 Y: y1, y2, y3,.......ym
Minimul şi maximul
(vârste)
 X: 58, 74, 70, 71, 56, 68, 70, 82, 62, 62

 Minim=56, Maxim=82

Y: 58, 74, 70, 71, 56, 68, 70, 82, 62, 62, 59, 46, 57, 71
(aceleaşi vârste şi încă 4)
 Minim=46, Maxim=82
Media aritmetică

 Media unei serii statistice este raportul dintre suma


valorilor seriei şi numărul lor.
 Media este indicatorul care arată tendinţa centrală a
seriei, şi de obicei arată unde tind datele să se
aglomereze.
 Media mai multor valori egale este egală cu fiecare din
valori
 Deşi se obţine din valori concrete, măsurate în practică,
media este un număr abstract
Media
• Media aritmetică
– Simplă: S / N
• S = suma algebrică a valorilor variabilelor; N =
numărul de variabile
• Nu este relevantă
– Ponderată: S x F / N
• S = suma algebrică a valorilor variabilelor
• F = frecvenţa variabilei respective
• N = numărul de variabile
Media aritmetică
• Exemplu: Repartiţia nou-născuţilor
după scorul Apgar
Scor Apgar (x) Număr copii (f) xf

4 3 12

5 3 15

6 4 24

7 15 105

8 12 96

9 9 81

10 4 40
50 373

sau
Referitor la media aritmetică trebuie de făcut câteva observaţii şi de
subliniat
câteva proprietăţi:

1. Media aritmetică se exprimă în aceeaşi unitate de măsură, ca şi


caracteristica supusă cercetării;

2. Definiţia dată mediei aritmetice este valabilă numai în cazul valorilor


individuale numerice. Pentru o serie cu valori nenumerice nu se poate
calcula media aritmetică;

3. Mărimea mediei aritmetice este unică, prin urmare, într-o serie de


variaţie nu pot fi mai multe medii aritmetice;

4. Mărimea mediei aritmetice poate sau nu să coincidă cu vreo valoare


individuală înregistrată;

5. Valoarea mediei aritmetice întotdeauna este cuprinsă între valoarea


minimă din serie (xmin) şi valoarea maximă (xmax);
6. Suma abaterilor valorilor individuale de la media lor este întotdeauna
egală cu zero (pentru o distribuţie simetrică);

7. Media aritmetică este sensibilă la prezenţa valorilor aberante, deoarece


este legată de toate valorile numerice înregistrate.

8. Dacă o serie este alcătuită din mai multe serii componente, pentru care s-
au calculat medii parţiale, atunci media întregii serii poate fi calculată ca o
medie ponderată din mediile parţiale.

Concluzie: între formula mediei aritmetice simple şi ponderate nu există


deosebiri esenţiale. Prima se utilizează în cadrul seriei simple, cea de-a
doua – în seria grupată, deci în funcţie de modul în care sunt prezentate
datele în seria de variaţie.
Mediana
• Mediana - este acea valoare din şirul de date care
împarte în două părţi egale şirul ordonat de valori
(şirul este ordonat crescător), situându-se la mijlocul
seriei statistice.
• n este un număr impar, atunci mediana este valoarea
Me= xk,
• Unde k=(n/2)+1
• n este par, număr par de valori, mediana este

unde: k = n/2.
Mediana – exemplu
Tensiunea arterială maximă la un bolnav în 10
zile

150,160,160, 170,160,170,150,160,170,160
 Ordonând valorile crescător, obţinem:
150,150,160,160,160,160,160,170,170,170
 În acest caz, mediana este între a cincea şi
a şasea valoare din şirul ordonat, adică 160
 Dacă aceste două valori de mijloc diferă, considerăm
mediana ca fiind media lor aritmetică.
 Dacă numărul de măsurători este impar atunci
madiana este chiar valoarea din mijloc.
Modul
• valoarea care apare cel mai des, deci valoarea cu
numărul cel mai mare de apariţii.
• Funcție de acest parametru populația de date poate fi
clasificată în:
1) unimodală
2) polimodală
• O funcție polimodală arată neomogenitatea datelor,
adică arată faptul că datele obținute nu fac parte din
aceiași populație.
• Exemple:
• - pentru șirul de date: 1,2,3,4,4,4, 5,6,7,8,9 modulul este
MO = 5
• - pentru șirul de date: 1,2,3,4,4,5,6,6,6,6,7,8,9 cele doua
module sunt:
• Mo = 5 si MO = 7
Alţi indicatori statistici
 Decile. Pe eşantioane mai mari de multe sute de
indivizi. Sunt 9 decile, fiecare corespunzând unui
procent de 10%, 20%,……,90% din eşantion,
asemănător cuartilelor. Decila a 5-a este mediana.

 Centile. Folosite, în studii pe mii de cazuri, de obicei


de un interes mai larg, naţional, internaţional, şi sunt
corespunzătoare precentelor de 1%, 2%,…,99% din
lot. Centila a 50-a este mediana.
2. Indicatorii de dispersie
• Amplitudinea
• Varianţa s2
• Abaterea standard (S) sau deviaţia
standard
• Coeficientul de variaţie
• Eroarea standard
Variabilitatea
• Variabilitatea – gradul de dispersie al
valorilor
– Deviaţia standard: DS = S (MA – X) / N
• DS = deviaţia standard = media deviaţiilor de la
media aritmetică a eşantionului de studiu
• S = sumă de/suma parantezei
• MA = media aritmetică
• X = valorile individuale
• N = numărul de observaţii
Amplitudinea
• diferenţa dintre valoarea maximă şi cea
minimă
• A = Amax - Amin
• Cu cât amplitudinea va fi mai mică cu atât
valorile vor fi mai apropiate și frecvența de
apariție a unei valori individuale va fi
mai mare.
AMPLITUTDINEA
(vârste)
 X: 58, 74, 70, 71, 56, 68, 70, 82, 62, 62

 Minim=56, Maxim=82
 Amplitudinea bsolută A =
Max – Min = 26
Y: 58, 74, 70, 71, 56, 68, 70, 82, 62, 62, 59, 46, 57, 71
(aceleaşi vârste şi încă 4)
 Minim=46, Maxim=82
 Amplitudinea bsolută
A = Max – Min = 36
Varianţa S2, deviaţia standard,S

Deviatia standard sau abaterea standard: indicator de


împrăştiere a datelor.
- parametrul principal care exprimă împraștierea rezultatelor în
jurul valorii medii, fiind un indicator al preciziei (al
reproductibilității rezultatelor). De asemenea este un indicator
de punere în evidență a erorilor întâmplătoare care afectează
procesul de analiză.
Varianța, S2
• Varianța sau dispersia reprezintă pătratul
abaterii standard și măsoară gradul de
împrãștiere a eșantionului în jurul mediei de
sondaj. Presupunând că există n elemente în
eșantion, cu valorile :
{x1, x2, . . . , xn}, având media
M = (x1 + x2 + . . . + xn)/n, atunci dispersia este:
• s2 = [(x1 - M)2 + (x2 - M)2 + . . . + (xn - M)2]/(n)
Coeficientul de variaţie
Coeficientul de variaţie se calculează ca un raport procentual
între abaterea standard şi valoarea medie a şirului de valori.
• Coeficientul de variație ( al lui Pearson)
• Este utilizat în scopul stabilirii gradului
de omogenitate a unui eșantion și se
obține prin raportarea abaterii standard la
media eșantionului.
• Rezultatul obținut se raportează apoi în
procente.
• Spre exemplu, daca xm = 11,40, iar s =
2,7, vom avea:
• CV = (2,7/11,4)*100 = 23,68%
• Interpretarea coeficientului de variabilitate se
face în functie de valorile obținute:
- dacă coeficientul este cuprins între 0 și 15%,
înseamna ca împrăștierea datelor este foarte
mică, iar media este reprezentativă, deoarece
eșantionul măsurat este omogen;
- dacă valoarea lui este între 15 și 30%,
împrăștierea datelor este mijlocie, media fiind
încă suficient de reprezentativă;
- dacă coeficientul depășeste 30%, media
aritmetică nu este reprezentativă,pentru
eșantionul în cauză, fiind recomandată utilizarea
medianei din cauza lipsei de omogenitate a
grupului.
Eroarea standard
Eroarea standard intervine în estimarea intervalelor de
confidenţă. Este raportul dintre deviația standard și radical
din nr de valori, n.

S-ar putea să vă placă și