Sunteți pe pagina 1din 20

CURS MASTER SPM

DESCRIEREA CARACTERISTICILOR CANTITATIVE I CALITATIVE.


Statistica este tiina, ramur a matematicii, care permite aprecierea unor parametrii
populaionali prin studiul unui numr redus de elemente ale populaiei n studiu (int).
O populaie poate fi definit printr-un ir de valori care pot fi grupate n funcie de
parametrul studiat (glicemie, colesterol, TAD, TAS, etc.).
Pentru fiecare astfel de ir se definete o variabil (care va purta nume propriu:
glicemie, colesterol, etc.). Practic variabila este considerat o funcie, ia valori posibil diferite
de la un element la altul n funcie de caracteristicile proprii acestora.
Variabila statistic - orice calitate, caracteristic s sau constituent al unei persoane
sau lucru, care poate fi msurat.

Sunt clasificate n dou grupe:


1. VARIABILE CANTITATIVE (caracteristic msurabil)
Variabilele cantitative pot fi:
Continue o variabil msurabil care poate lua o infinitate de valori,
de obicei ntr-un interval (TAD, colesterol)
Discrete variabile care nu pot lua dect valori ntregi (scor APGAR)

Tip interval - Acest tip de msurtoare permite comparaia dintre


date. Diferena dintre doua rezultate 4 si 2 este egala cu diferena
1

dintre 6 si 4. n cazul unui test de inteligenta diferena ntre 100 IQ si


50 IQ este egala cu diferena dintre 100 IQ si 150 IQ. Deficienta
majora a acestei scale este ca valorile respective nu pot fi multiplicate
sau divizate. Astfel noi nu putem concluziona ca un subiect care a
obinut 150IQ este de 1,5 ori mai inteligent dect un altul care a
obinut 100IQ si nici de 3 ori mai inteligent dect unul care a obinut
50IQ.
Tip raport - Acestea poseda toate calitile unei scale de interval si are
n plus doua noi. Permite multiplicarea sau divizarea datelor (2 kg sunt
jumtate din 4kg si dublul unui kg). Acest tip de msurare indica de
asemenea valoarea zero absolut, ce arata lipsa totala a cantitii
msurate. Cele mai multe caracteristici fizice (greutate; nlime; timp
de reacie; nivelul adrenalinei) pot fi msurate astfel.
Ultimele doua tipuri de scale (de interval, respectiv de raport) sunt expresii
cantitative ale variabilelor care pot fi supuse analizei statisticii parametrice cu mici excepii.
Pentru a aplica tehnicile de statistica parametrica n cazul variabilelor msurate prin
scale numerice (de interval sau de raport) trebuie sa vedem daca:
Variabilele implicate sunt distribuite normal n cazul eantionului
selectat;
Dispersia variabilelor de interes n cadrul eantionului selectat trebuie
sa fie asemntoare cu dispersia variabilei pentru ntreaga populaie
care ndeplinete caracteristicile eantionului.
2. VARIABILE CALITATIVE (caracteristic ce nu poate fi msurat).
La rndul lor variabilele calitative pot fi:
Nominale grupuri de elemente ce nu pot fi ordonate (grupa
sanguina, culoarea prului)
Nominale ordonate (ordinale) variabile ce sunt clasificate n mai
mult de doua categorii si la care exista o ordine naturala ntre
categorii: evoluia, stadializari, clasificri, scoruri etc.
Dihotomice (binare) apar numai dou posibiliti (bolnav / sntos)
VARIABILE DEPENDENTE, VARIABILE INDEPENDENTE

Ex: o cercetare care vizeaz numrul orelor de somn la studeni, n timpul semestrului,
comparativ cu perioada de sesiune:
2

orele de somn= v. dependent


perioada din semestru= v. independent

STATISTICA DESCRIPTIV/STATISTICA INFERENIAL


Exist dou ramuri ale statisticii: statistica descriptiv i statistica inferenial.
Statistica descriptiv (dup cum rezult din denumire) se ocup cu descrierea
caracteristicile principale ale variabilelor individuale. Valorile pe care variabila le ia se
constituie ntr-o serie statistic.
Statistici bivariate sunt folosite atunci cnd relaia dintre dou (sau mai multe)
variabile este descris.
Statisticile infereniale reprezint un aspect cu totul diferit al statisticii. Se aplic
numai pentru a rspunde la ntrebarea dac ne putem baza pe rezultatele obinute pe un
eantion de cazuri. Folosirea eantioanelor este caracteristic pentru majoritatea studiilor
moderne. Problema cu eantioanele este c unele dintre ele nu sunt similare cu populaia
din care au fost extrase. Expresiile statistic semnificativ i statistic nesemnificativ indic
dac o tendin a datelor poate fi acceptat ca substanial (statistic semnificativ) sau
insuficient de substanial pentru a ne baza pe ea (statistic nesemnificativ). Obinerea
semnificaiei statistice este puin probabil s fie rezultatul ntmplrii. (susine concluzii
(inferene) cu privire la o populaie, pe baza datelor unui eantion extras din acea populaie).
Fiecrei statistici descriptive i corespunde o statistic inferenial. De exemplu,
coeficientul de corelaie este un indicator statistic descriptiv indicnd direcia i intensitatea
relaiei dintre dou variabile. Asociat acestui coeficient este statistica inferenial semnificaia coeficientului de corelaie. Statistica descriptiv este important pentru
nelegerea tendinei datelor - statistica inferenial se ocup de ncrederea pe care o putem
avea n rezultate.
Statistica parametric/neparametric
Statistica parametric
proceduri infereniale pe v. msurate pe scale cantitative (Interval sau
Raport)
se bazeaz pe estimarea prin eantionare a parametrilor populaiei
(medie, deviaie std.)
Statistica neparametric
o proceduri infereniale pe v. msurate pe scal calitative (nominale i
ordinale)
o nu se bazeaz pe estimarea parametrilor populaiei

STATISTICA DESCRIPTIV
Statistica descriptiv reprezint forma cea mai simpl de analiz a caracteristicilor
unei populaii. Ea include colectarea de date, prezentarea lor sub form de tabele,
ntocmirea unor reprezentri grafice i stabilirea indicatorilor statistici.
Clasificarea rezultatelor obinute i prezentarea lor sub o form facil, accesibil,
care d o descriere a fenomenului pe ct de fidel posibil.
3

Tabelele i graficele trebuie n aa fel ntocmite nct s permit o interpretare


direct i uoar fr a mai necesita texte aplicative suplimentare.
Proceduri de organizare, sintetizare i descrierea datelor:
A. Tehnici de organizare i prezentare a datelor (DESCRIEREA UNEI SERII STATISTICE)
numerice (analiza de frecvene - simpl/grupat)
grafice
B. Indicatori statistici
indicatori ai tendinei centrale
indicatori ai mprtierii
indicatori ai formei distribuiei

A. DESCRIEREA UNEI SERII STATISTICE


1. ORDONAREA DATELOR cresctor sau descresctor
Primul tabel care se ntocmete este tabelul datelor primare n care sunt trecute n
ordinea msurrii caracteristicile cercetate.
2. DETERMINAREA FRECVENELOR ABSOLUTE:

Pentru fiecare valoare distinct observat x, se calculeaz numrul F de apariii,


numit frecvena absolut (efectivul) valorii.
Mulimea valorilor efective ale frecvenelor respective constituie distribuia
frecvenei, care se poate prezenta printr-un tabel.
p

Numrul total n de cazuri = suma efectivelor fiecrei valori:

Fi n
i 1

3. EXPRIMAREA FRECVENELOR I SUB ALTE FORME:


Frecvena relativ:
Permite s comparm serii statistice comportnd un numr diferit de cazuri.
Se raporteaz frecvena absolut calculat la numrul n de cazuri, numit efectivul
total al seriei studiate.

fr

F
n

ri

i 1

Frecvena procentual: Permite s caracterizm mai expresiv frecvena relativ.


p

f = f 100
p

pi

100

i 1

Frecvena cumulat: Se definete ca fiind suma frecvenei proprii a unei valori


observate cu frecvenele tuturor valorilor inferioare.

4. REALIZAREA TABELULUI DISTRIBUIEI DE FRECVENE:


Ex. Avem seria: 10, 10, 9, 9, 8, 8, 8, 8, 8, 7, 7, 7, 6, 6, 6, 6, 6, 6, 6, 5, 4, 4, 4, 4, 2
Tipuri de frecvene simple
Frecvena absolut
Frecvena cumulat
Frecvena relativ raportat la unitate
Frecvena relativ cumulat, raportat la unitate
Frecvena relativ procentual
Frecvena relativ cumulat procentual

Decilele mpart distribuia n 10 pri egale

Quartilelempart distribuia n patru pri egale ca numr de valori)


quartila1 (percentila25)
quartila2 (percentila50)
quartila3 (percentila75)

5. GRUPAREA DATELOR N CLASE:


Cnd valorile studiate variaz continuu, cum este cazul greutii i al nlimii etc.,
distribuia de frecvene este foarte dispersat i nu ofer o interpretare semnificativ a
mulimii de valori. De aceea, se recurge la reducerea numrului de valori posibile, grupnd
valorile vecine. Mai precis, se mparte domeniul de variaii posibile ntr-un numr de
intervale sau clase n interiorul crora se grupeaz toate valorile care cad n intervalul
corespunztor.
Principii

toate intervalele trebuie s fie egale


limitele intervalelor trebuie s cuprind toate valorile (ntre limitele intervalelor
alturate s nu existe goluri sau suprapuneri)

Formule de calcul pentru numrul intervalelor de clas pentru un eantion dat:


Relaia lui H.A. Sturgers:

k = 1 + 3.322 * ln(n)

Relaia H.B. Mann i A. Wald


(pentru n >100):

= [ ( )]

Dac dimensiunea eantionului este mai mic dect 25, atunci nu se aplic mprirea pe
clase.
n practic numrul intervalelor de clas este bine s fie cuprins ntre 10 i 20.

LIMITE APARENTE, LIMITE REALE


limite aparente
valori care sunt scoruri posibile ale variabilei (125, 129, etc.)
mijlocul intervalului=(125+129)/2)=127
limite reale
extind mrimea intervalului pentru a lua n considerare natura continu a scalei de
msurare
media a dou mijloace de interval:(127+122)/2=124.5
distana dintre limitele reale este egal cu distana dintre limitele aparente

REPREZENTRI GRAFICE
Cerine generale
focalizarea pe coninutul i nu pe forma graficului
este esenial s fie evitate distorsiunile induse de forma graficului
este recomandabil s fie utilizate grafice care favorizeaz comparaii ntre
variabile i nu doar reprezentri individuale, statice, ale acestora
fiecare grafic trebuie s serveasc un singur scop, exprimat clar i evident
se evit graficele redundante
orice grafic va fi nsoit de informaii statistice i descrierile necesare pentru a fi
uor i corect neles
orice grafic trebuie s aib un titlu, iar axele vor explicit etichetate
un grafic trebuie s scoat n eviden datele i nu abilitile tehnice de editare
ale celui care l-a creat
Forme uzuale
graficul de tip bar
histograma
poligonul de frecvene
graficul frecvenei cumulate
graficul circular
graficul de tip stem and leaf (tulpin i frunze)
Graficul de tip bar
Axa orizontal (Ox)
valorile distribuiei
Axa vertical (Oy)
frecvenele fiecrei valori,
Exigene
- Barele trebuie sa aib aceeai lime
- ntre bare se las un spaiu
- Barele pot fi puse n orice ordine
- Ordonarea barelor, descresctor sau cresctor (grafic Pareto)

Histogram: Apgar 1 min


Kolmogorov-Smirnov d=.14589, p<.15 ; Lilliefors p<.01
Expected Normal
20
18

17

16

No. of obs.

14
12

11
10

10

9
8

6
4

4
2

0
-1

X <= Category Boundary

Pareto Chart of t-Values for Coefficients; df=2


Variable: pH CO
Sigma-restricted parameterization

CK 12h

4.6055

0.677008

CK 48h

0.605519

CK 72h

CK 4h

CK 24h

.2039963

.129605

CK 7 zile .0289275

p=.05
t-Value (for Coefficient;Absolute Value)

histograma
Histogram: GN
Kolmogorov-Smirnov d=.08153, p> .20; Lilliefors p> .20
Expected Normal
30

25

25

20

No. of obs.

18
15
13
10

5
3
1

0
500

1000

1
1500

2000

2500

3000

3500

4000

4500

5000

X <= Category Boundary

poligonul de frecvene

graficul frecvenei cumulate

10

11

DIAGRAME DE STRUCTUR: arat proporia valorilor unei variabile n cadrul eantionului


(Graficul circular)

DIAGRAMA TUKEY Stem and Leaf: permite reconstituirea datelor i evaluarea densitii
datelor n fiecare clas. Se folosete n general pentru a reprezenta variabile care au drept
valori numere reale, grupate n intervale de clas.

12

B. INDICATORI STATISTICI
Indicatorii care definesc o variabil (serie) sunt:
Variabile cantitative
msura tendinei centrale (media, mediana,modul)
msura dispersiei (deviaia standard,varianta)
distribuia normala
Indicatori ai tendinei centrale: valori tipice, reprezentative, care descriu distribuia n
ntregul ei
MEDIA ARITMETIC:
Se aplic datelor care au valori numerice; fiind date observaiile x1 , x2 , , xn media
aritmetic se va calcula cu formula:
n

i 1

Notaii uzuale:
- media populaiei
- m media eantionului
MEDIA ARITMETIC PONDERAT:
Fiind date observaiile x1 , x2 , , xn pentru care se cunosc frecvenele absolute F1, F2,
Fn, media aritmetic ponderat se va calcula cu formula:
n

F x F2 x2 ... Fn xn
x 1 1

F x
i 1

Proprietile mediei aritmetice


- Adugarea\scderea unei constante la fiecare valoare a distribuiei, mrete\scade
media cu acea valoare
- nmulirea\mprirea fiecrei valori a distribuiei cu o constant, multiplic\divide
media cu acea constant
- Suma abaterii valorilor de la medie este ntotdeauna egal cu zero
- Suma ptratului abaterilor de la medie va fi ntotdeauna mai mic dect suma
ptratelor abaterilor n raport cu oricare alt punct al distribuiei.

13

MEDIA CRONOLOGIC, MC:


Se folosete n cazul seriilor care au variaii n timp (lunare, semestriale sau anuale):

MC

x1 / 2 x2 ... xn 1 xn / 2
n 1

MEDIANA, ME:
Se calculeaz pentru datele care au valori numerice; se ordoneaz valorile cresctor sau
descresctor. Corespunde valorii de 50% pe coloana frc%.
n cazul n care irul are un numr IMPAR de valori: mediana va fi valoarea care mparte
irul de valori n dou pri egale.
n cazul n care irul are un numr PAR de valori: mediana se calculeaz fcnd media
aritmetic a celor dou valori din mijlocul irului.
Valori nedeterminate i clase deschise
Valorile nedeterminate
valori a cror mrime nu decurge din procesul de msurare, n acelai mod n care rezult
oricare valoare a seriei
Exemplu: testul de asociere verbal (10 sec)
Clase (categorii) deschise
categorii care au una dintre limite liber
Exemplu: Cte igri fumezi zilnic? (30 sau mai mult).
n astfel de cazuri se utilizeaz mediana.
MODULUL (dominanta), MO:
Este valoarea care are frecvena cea mai mare dintr-un ir de observaii.
- distribuii unimodale (583254 Mo=5)
- distribuii bimodale (5832254 Mo=5; =2)
- distribuii multimodale (58832254 Mo=5; =2; =8)
VALOAREA CENTRAL, Xc:
Reprezint media aritmetic a valorilor extreme din irul de date studiat.
x xmax
X C min
2

14

Valori extreme (excesive) ale distribuiei


valori excesive, neobinuit de mari sau de mici fa de celelalte valori ale unei
distribuii
Identificare
Tratarea valorilor extreme
Stabilirea naturii valorilor extreme:
erori de nregistrare (tastare);
erori de msurare;
rezultate influenate de anomalii ale condiiilor experimentale.
eantionul a fost extras dintr-o populaie asimetric
valorile respective fac parte din alt populaie de valori
eantion prea mic
Tratarea lor pe una din cile posibile:
eliminare (dac sunt erori necorectabile);
corectare (dac este posibil);
utilizarea mediei 5%trim,
transformare (extragerea radicalului din toate valorile distribuiei, logaritmarea
distribuiei, etc.)

Indicatori ai mprtierii descriu caracteristica de mprtiere a valorilor distribuiei


VARIANA (DISPERSIA):
Este media ptratelor deviaiilor (abaterilor) de la medie. Fiind dat o serie de valori x1 ,
x2 , , xn , n >30, se calculeaz cu formula:
n

(S 2 ) 2

( x x)
i 1

15

Dac n < 30, se aplic 0 corecie a formulei de calcul: ( S 2 ) 2

( x x)
i 1

n 1

Numitorul (n 1) = numrul gradelor de libertate ale varianei.


S2 dispersia eantionului; 2 dispersia populaie
Abaterea standard nu este definit pentru (n-1), ci pentru n
Dar suma abaterilor de la medie este ntotdeauna 0
dac tim n-1 abateri, o cunoatem pe ultima
doar primele n-1 abateri pot varia liber.
(n-1) sunt definite ca grade de libertate
Abaterea standard fa de medie este mai mic dect abaterea standard fa de orice alt
valoare a unei distribuii
DEVIAIA STANDARD:
Se definete ca fiind rdcina ptrat a varianei:
n

( xi x)

i 1

AMPLITUDINEA:
Se definete ca diferena ntre cea mai mic i cea mai mare valoare dintr-un ir de valori.
==
Amplitudinea relativ (R%)
raportul procentual dintre amplitudine i medie
util cnd cunoatem plaja teoretic de variaie a valorilor
CUARTILELE:
Sunt 3 valori, notate Q1, Q2 i Q3, care mpart irul de date n 4 pri de dimensiune egal.
Diferena dintre Q3 i Q1 se numete interval cuartilic, Iq = Q3 Q1.
16

Q1 se numete cuartila inferioar sau mic, Q3 se numete cuartila superioar sau mare, iar
Q2 este aceeai cu mediana irului.
COEFICIENTUL DE VARIAIE, CX:
Este raportul ntre deviaia standard i media aritmetic a valorilor seriei, utilizat pentru a
exprima mai sugestiv gradul de mprtiere a acestora.

Abaterea medie i abaterea standard se exprim n unitile de msur ale variabilei


de referin ca urmare, nu pot fi comparate n mod direct, pentru variabile diferite.
- CV poate fi calculat numai pe scale de raport (origine n 0)
- CV<15%, mprtierea este mic i, deci, media este reprezentativ
- CV este ntre 15%-30%, mprtierea este mijlocie i media este suficient de
reprezentativ
- CV > 30%, mprtierea este mare i media are o reprezentativitate redus
EROAREA STANDARD:
Se definete ca fiind: e.s.

2
n

Alegerea indicatorului mprtierii


- Abaterea standard este cea mai utilizat pentru scale de msurare interval/raport.
Realizeaz cea mai bun combinaie ntre calitatea estimrii i posibilitatea de a
fundamenta inferene statistice.
- Amplitudinea este un indicator nesigur i care nici nu poate fi calculat n cazul
scalelor nominale
- Pe distribuii cu valori nedeterminate sau cu intervale deschise, se alege abaterea
interquartil (semi-interquartil).

Indicatori ai formei distribuiei


se refer la forma curbei de reprezentare grafic a distribuiei
ASIMETRIA (SKEWNESS):
O distribuie este considerat simetric, dac de o parte i de alta a mediei, frecvenele au
aceleai valori.
Indicatorul relativ de asimetrie, Sk: (Karl Pearson)

=

pentru n suficient de mare:


2
=1 (
)
=

pentru n < 30:


2
=1 (
)
=
1
17

Interpretare:
Dac Sk = 0 sau =_, distribuie simetric.
Dac Sk > 0 sau >_, asimetrie pozitiv (la dreapta).
Dac Sk < 0 sau <_, asimetrie negativ (la stnga).
n cazul unei distribuii simetrice, media aritmetic, mediana i modulul sunt egale.

BOLTIREA (KURTOSIS):
Compar distribuia dat cu cea normal, sau gaussian, d.p.d.v. al nlimii curbelor.
Coeficientul de boltire:
2 =
Coeficientul Fisher:

4
4

=1( )2
2 =
3
4
18

Interpretare:
Dac 2 = 3 sau 2 = 0, repartiie mezocurtic (normal).
Dac 2 > 3 sau 2 > 0, repartiie leptocurtic (ascuit).
Dac 2 < 3 sau 2 < 0, repartiie platicurtic (aplatizat).

19

20