Sunteți pe pagina 1din 56

Statistica descriptiva

Cursul 2
Statistica este stiinta colectarii, clasificarii, prezentarii,
interpretarii datelor numerice si a utilizarii acestora
pentru a formula concluzii si a lua decizii.


Statistica descriptiva se ocupa cu colectarea,
clasificarea, caracterizarea si prezentarea datelor
numerice. Nu le explic sau interpreteaz.

Statistica inferentiala se ocupa cu interpretarea
datelor oferite de statistica descriptiva si cu prelucrarea
acestora pentru a formula concluzii si a lua decizii.

Alegerea tipului statisticii adecvate este determinat de
scopul cercetarii, de ipoteze si de datele colectate.
Statistica
Statistica se utilizeaza pentru:

a descrie matematic un proces
a trage concluzii dintr-un set de rezultate/masuratori
a testa ipoteze
a testa relaiile dintre variabile

Statistica trebuie utilizata corect. Din acest motiv:

datele trebuie sa fie valabile i fiabile
testele statistice sa fie indeplinite
rezultatele sa fie interpretate corect

Majoritatea minciunilor statistice sunt inocente si rezulta din:

folosirea incorecta a statisticii,
date obtinute dintr-un esantion nepotrivit.
Statistica
Statistica
Generalitile deduse statistic sunt adevrate n medie,
deoarece evideniaz comportamentul esantionului

Statistica este un instrument de lucru care nu substituie
gndirea corect i clar a specialistului.

Datele se obtine in regim programat si neprogramat;

Regimul programat este o strategie de a obtine informatii maxime
dintr-un set cu un numar minim de date; efortul financiar este minim,
iar beneficiul profesional este maxim.

Accesibilitatea calculatoarelor si a programelor specializate:

permite nregistrarea i prelucrarea unui volum mare de date,
vizualizarea evoluiei fenomenelor in timp real.
Statistica excelenta pentru sntate - fumatorii sunt mai
putin predispusi sa moara de boli legate de vrst
Statistica ofera rigoare tiinific deciziilor.

Pentru a utiliza statistica este necesara familiarizarea cu: limbajul
statistic, cu conceptele fundamentale, cu etapele cercetrii
statistice.

Statistica este utila factorilor decizionali care au nevoie:

s descrie i s prezinte informaiile;
s tie s faca previziuni credibile privind procesul;
s tie cum s mbunteasc desfurarea activitilor;
s tie cum s trag concluzii despre colectiviti numeroase,
doar pe baza informaiilor obinute din eantioane.

Statistica
Statistica si probabilitatile sunt domenii distincte ale matematicii.

Statistica se fundamenteaza pe legile probabilistice.

Exemplificarea diferentei: se considera doua urne: una probabilistica si
alta statistica.

In urna probabiliste se stie ca sunt 5 bile albe, 5 negre si 5 rosii; se
calculeaza care este sansa de a extrage o bila alba.

In urna statistica nu se stie care este combinatia bilelor din urna; se
extrage un esantion si baza lui se fac presupuneri asupra combinatiei
bilelor din urna.

Probabilitatea calculeaza sansa ca un eveniment sa se intample
daca se cunoaste populatia.

Statistica ia un esantion, il analizeaza si apoi face predictii asupra
populatiei.

Relatia dintre statistica si probabilitati
Observatii:

Controlul se efectueaza pe un fragment al realitii.

Datele obinute reprezint o selecie pe baza crora
se formuleaz concluzii generale.

Seturile controlate prezinta o variabilitate naturala.

Prelucrarea si interpretarea datelor se face prin
metodele statisticii matematice.
Statistica
Populaia:
este o multime de valori aleatoare ale aceleasi marimi reprezentate de
indivizi, obiecte sau date numerice obtinute prin masuratori ale
proprietatii care se analizeaza.
se considera complet defnita daca lista membrilor este specificata.
este un concept fundamental al statisticii.

Observatie: Populatia nu inseamna numai o multime de oameni.

Esantionul este o submultime a unei populatii; consta din indivizi,
obiecte sau date masurate selectate aleatoriu din populatie.

Unitate statistica - element al populatiei.

Variabila statistica este caracteristica elementelor unei populatii care
prezinta interes in cazul analizat.
Statistica - definitii
Statistica - definitii
Data este valoarea variabilei statistice.

Variabilele statistice sunt:

calitative sau atribute nu pot fi masurate; ex.: culoare, profesie.
cantitative - pot fi masurata, ex.: lungime, masa.

Variabilele cantitative sunt:

discrete iau un numar finit de valori intr-un interval real,
continue pot lua toate valorile dintr-un interval real.

Parametrul:

este o caracteristica numerica a unei populatii.
este o valoare numerica care se refera la intreaga populatie,
se noteaza cu litere grecesti.
Studiul statistic se efectueaza pe un esantion .
Statistica - definitii
Statistica - definitii
Clasificarea
varianilelor
Variabile
discrete
Variabile
continue
Variabile
cantiitative
Variabile
calitative
O statistica:
este o caracteristica numerica a unui esantion
se noteaza cu literele alfabetului latin.

Setul de date:
este format din valorile unei variabile dintr-o populatie
sau esantion.
contine aceeasi data de atatea ori de cate ori variabila ia
acea valoare.

Experiment sau sondaj - activitate planifcata prin care se
obtine un set de date.
Statistica - definitii
Serie statistica - date colectate din populatie pe care se
face studiul statistic; se clasifica in:

serie statistica exhaustiva toate elementele
populatiei sunt studiate; se mai numeste
recensamant;

selecie, eantion sau sondaj - elemente
reprezentative aparinnd populaiei.

Estimaia - caracteristica determinat pe selecii,
reprezentative pentru ntreaga populaie;


Observatie: pentru ca estimaia s fie corecta, selecia
trebuie s fie reprezentativ.

Statistica - definitii
Sirurile de date sunt:

stationare,
nestationare.

Sunt influentate de variatii ale parametrilor controlabili si necontrolabili.

Datele din sirurile stationare sunt:

omogene,
independemte.
difera prin erorile de msurare si variatia parametrilor
necontrolabili.

Sirul de date nu prezinta tendinta sau periodicitate; se mai numete ir
de replicate stationar.
Statistica - definitii
0 1 2 3 4 5 6 7 8 9 10 11
0
2
4
6
8
10
12
14
Y

X
y y c =
Sir stationar de date
Statistica - definitii
Sirurile de date dinamice sau nestationare prezinta:

variabilitate,
omogenitate,
periodicitate,
interdependena.


Se mai numesc serii de timp sau serii cronologice.

0 20 40 60 80 100 120 140 160 180
0
2
4
6
8
10
experimental data
linear correlation
Y =2.26-0.004 X
c
,

m
g
/
m
3
t, hour
Y
m
0 20 40 60 80 100 120 140 160 180 200
0
2
4
6
8
10
c
,

m
g
/
m
3
t, hour
experimental data
waveforme damped sine model
Sir de date dinamic sau nestationar.
Organizarea datelor:

tabele,
grafice.

Analiza se face pe baza caracteristicilor statistice:

caracteristici de pozitionare,
caracteristici de dispersie, imprastiere

Interpretarea caracteristicilor statistice formuleaza
concluzii despre esantiomul de date.

Statistica
Statistica
Tabel statistic se utilizeaza pentru stocarea variabilelor discrete:

volum mic de date enumerarea datelor intr-o ordine
prestabilita,

volum mare de date se organizeaza in functie de valorile
posibile si de frecventa de aparitie a acestora in populatie.
Debit, m
3
/h 1 3 5 7 9 11 13 15
Numar
pompe
7 11 16 17 26 31 11 2
Populatie: 121 de pompe defecte, variabila statistica: debitul pompei
Reprezentarea grafica
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
0
5
10
15
20
25
30
35
f
r
e
c
v
e
n
t
a
Debit, m
3
/h
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
0
5
10
15
20
25
30
35
f
r
e
c
v
e
n
t
a
Debit, m
3
/h
Diagrame cu bare sau benzi verticale.
Reprezentarea grafica
0
2
4
6
8
10
12
14
16
0 5 10 15 20 25 30 35
frecventa
D
e
b
i
t
,

m
3
/
h
Diagrama cu bare
orizontale.
Fie o serie statistica definita de perechea de
numere (x
i
, n
i
)

Se numeste functie de repartitie a acestei serii,
functia F care, asociata tuturor valorilor reale ale
lui x, reprezinta numarul total de unitati statistice
pentru care valoarea x
i
este mai mica sau egala
cu x.

Se defineste frecventa; f = n
i
/N; aceasta variaza
intre 0 si 1.
Statistica - definitii
Statistica - definitii
Debit, m
3
/h Numar
pompe
Valoare
cumulata
1 7 7
3 11 18
5 16 34
7 17 51
9 26 77
11 31 108
13 11 119
15 2 121
Observatie:

34 de pompe cu defecte au
debitul mai mic de 5 m
3
/h
0 2 4 6 8 10 12 14 16
0
20
40
60
80
100
120
140
v
a
l
o
a
r
e

c
u
m
u
l
a
t
i
v
a
Debit
0 2 4 6 8 10 12 14 16
0.0
0.2
0.4
0.6
0.8
1.0
f
r
e
c
v
e
n
t
a
Debit
Diagrama cumulata pentru variabile discrete.
Statistica - definitii
Serie statistica de o variabila continua
O variabila continua poate lua orice valori intr-
un interval.

Intervalul se numeste clasa.

Clasele sunt:

egale - cele mai utilizate,
inegale.

Serie statistica de o variabila continua
Debit, m
3
/h Numar pompe
0- 2 7
2 - 4 11
4 - 6 16
6 - 8 17
8 - 10 26
10 - 12 31
12 - 14 11
14 - 16 2
0 2 4 6 8 10 12 14 16
0
5
10
15
20
25
30
35
40
n
u
m
a
r
Debit
Histograma
0 2 4 6 8 10 12 14 16
0
10
20
30
40
50
60
n
u
m
a
r
Debit
0 2 4 6 8 10 12 14 16
0
10
20
30
40
50
60
n
u
m
a
r
Debit
Lungimea clasei egala 4 Lungimea clasei egala 2
Serie statistica de o variabila continua
0 2 4 6 8 10 12 14 16 18
0
10
20
30
40
%
Debit
Curba de distributie experimentala
Serie statistica de o variabila continua
0.01
0.5
2
10
30
50
70
90
98
99.5
0 2 4 6 8 10 12 14 16
0 2 4 6 8 10 12 14 16
0
5
10
15
20
25
30
35
40
n
Debit
En
Histograma + curba cumulata
Serie statistica de o variabila continua
Curba de repartitie ideala
Concluzii:

Rezultatele msuratorilor
repetate ale unei unitati
statistice (mrime), n condiii
identice, se caracterizeaza
printr-o lege de repartiie.

Legea pe care se
fundamenteaz metodele de
prelucrare a unitatilor statistice
este legea de repartiie
normal.

Legea de repartitie normala
Proprietile repartiiei normale
Simetria - erorile aleatorii
de semne diferite au
aceeasi frecventa.

Concentraia
erorile aleatoare mici n
valoare absolut au
frecventa mai mare;
erorile aleatoare mari
au frecventa mica de
aparitie.
Caracteristici de pozitionare


Media aritmetic a esantionului:


Proprietate:


Media aritmetic a populatiei:


Moda: valoarea variabilei cu frecventa cea mai mare:




1
i N
i
i
y
y
N
=
=
=

1
( ) 0
i N
i
i
y y
=
=
=

|
|
.
|

\
|
+ =

x M 3 x M
e o
Caracteristici de pozitionare
Mediana: valoarea variabilei pentru care jumatate din
variabile au valori mai mici decat ea si jumatate au valori
mai mari decat ea:

dac n este impar:
dac n este par:

Exemplu: 61, 61, 72, 77, 80, 81, 82, 85, 89, 90, 92

3, 3, 7, 10, 12, 15


Valoarea centrat a irului de date:
2 / ) 1 n ( e
x M
+
=
( )
1 2 / n 2 / n e
x x
2
1
M
+
+ =
( )
min max c
x x
2
1
x =
8,5
Caracteristici de pozitionare
Media trunchiata - trimmed mean
Media trunchiata se calculeaza astfel:

1. Sirul de date se ordoneaza.
2. Se elimina valorile extreme.
3. Se calculeaza media valorilor ramase.
4. Se calculeaza cu functia

TRIMMEAN(sir, procentaj)

Aceasta este media trunchiata.
Caracteristici de dispersie

dispersia esantionului:


dispersiei a populaiei:


abaterea medie ptratic
esantion:


abaterea medie ptratic
a populatiei:
( )
2
1
1
n
i
i
s x x
n
=
=

( )
2
2
1
1
n
i
i
s x x
n
=
=

( )
2
2
1
1
1
n
i
i
x x
n
o
=
=


( )

=
n
i
i
x x
n
1
2
1
1
o
Caracteristici de dispersie
amplitudinea:


coeficientul de variaie:







max min
R x x

=
v
s
C
x

=
Curbe cu aceeai medie, dar cu
mprtieri diferite ale rezultatelor
(coedicient de variatie diferit).
Caracteristici de dispersie

coeficientul de asimetrie:

( )
2
1 3
2
y
s
|

| |
|
\ .
=
Coeficientul de asimetrie:

pozitiv cu o coada lung a distribuiei in partea valorilor
pozitive,
negativ cu o coada lung a distribuiei in partea valorilor
negative.
0 2 4 6 8 10 12 14 16
0
2
4
6
8
10
12
14
%
c, mg/m
3
2004 - 2006
Curbe de distributie experimentale
cu valoare pozitiva a coeficientului de asimetrie.
0
2
4
6
8
10
12
c
,

m
g
/
m
3
Diagrama Box
1. Valori afectate de erori grosolane
2. Limita superioara
3. Media aritmetica
4. Mediana
5. Limita inferioara
1
2
3
4
4
1
Caracteristici statistice
Parametrii statistici de tendin i de mprtiere se
utilizeaz pentru:

a elimina msurtorile afectate de erori grosolane,

a demonstra distribuia normal a erorilor de msurare,

a verifica caracterul aleatoriu al variabilelor,

a estima erorile de msurare i propagarea acestora,

a determina condiiile favorabile de msurare.
Eliminarea datelor afectate de erori grosolane
Pentru replicate, o valoare care difer mult de
media lor aritmetic rezulta:

dintr-o citire greit,
dintr-o eroare de calcul,
din cauze necunoscute,


Eliminarea valorilor afectate de erori grosolane se
face pe baza testelor statistice
Teste pentru eliminarea valorilor anormale

Testul Irwin:


Testul Romanovski:



Testul Grubbs:
s
x x
1 n n

=
1 n
n
s
x x
t
n

|
|
.
|

\
|

= v
=

n
1 i
2
i
n
x x
1 n
n
x x
Verificarea normalitii repartiiei datelor
Repartiia normal este simetric; repartiiile empirice
pot fi asimetrice ca urmare a ponderii de valori fie mai
mari, fie mai mici dect media.

Repartiia normal este definit pe domeniul - , + ;
orice abatere finit de la medie are o probabilitate mai
mare ca zero.

Repartiia normal are un singur maxim; este
unimodala; repartiiile empirice pot fi multimodale.

Repartiia normal nu este universal valabil.

Verificarea normalitii repartiiei datelor
Distributia empirica se aproximeaza cu distributia
normala daca:

media aritmetic, mediana i a modulul nu difera
semnificativ,

coeficientului de asimetrie are valoarea apropiata de zero,

daca trece testul _
2
Testul
2

Se calculeaz valoarea :

n care:

- numrul total de valori,

p
i
probabilitatea teoretic corespunztoare frecvenei de
apariie a valorii x
i
n cazul unei repartiii normale.
( )


= _
=
k
1 i
i
2
i i 2
Np
Np n

=
=
k
1 i
i
n N
Testul _
2
se aplic dac: N > 50, n
i
> 5 i 10 < k < 20
Verificarea caracterului aleatoriu al datelor
Prelucrarea statistic a datelor se fundamenteaza i pe
ipoteza caracterului aleatoriu al datelor.

Datele nu trebuie sa prezinte:

valori extreme,
tendine,
fluctuaii periodice, sezoniere, ciclice.
discontinuiti.
0 1 2 3 4 5 6 7 8
0
1
2
3
4
5
6
7
8
Y
i
Y
i-1
Reprezentarea grafic Y
i
= f(Y
i-1
).
Estimatii
Estimarea este evaluarea valorilor tipice necunoscute
ale unei populaii pe esantioane.

Parametrii esantioanelor nu sunt identici cu cei ai
populaiei studiate.

Se determina numarul de elemente ale esantionului
pentru ca parametrii acestuia sa descrie cu
probabilitatea data populatia.

Intervalul de ncredere este intervalul care acoper,
cu probabilitatea dat, numit nivel de ncredere,
valoarea parametrului care se estimeaza.
Interval de incredere
Pentru un parametru x ce caracterizeaza populatia se
doreste gasirea unui interval [x
inf
, x
sup
] in care sa se
gaseasca parametrul x cu probabilitatea 1- o
1- o - prag de semnificatie
o - risc
x poate fi media, dispersia, diferenta a doua medii,
raportul a doua dispersii.
Se aleg valorile x
i
si x
s
pentru care suprafetele la stanga lui x
i

si la dreapta lui x
s
sa fie egale
o ia valori intre 0.01 si 0.05
(1-o) ia valori intre 0.99 si 0.95
n o n o
5 0,960 16 0,991
6 0,970 18 0,992
7 0,976 20 0,993
8 0,980 25 0,994
9 0,983 30 0,995
10 0,985 50 0,996
12 0,988 150 0,997
14 0,990 0,9973
Valorile o n funcie de n
Valorile pentru n s-au stabilit pe baza reguli trei sigma a legii de repartiie
normal.
Regula 3 sigma
Nivelul masuratorii
Nominal
Date pot fi
clasificate
Ordinal Interval Raport
Datele pot fi
ordonate
Diferentele intre
valori au
semnificatie
Raportul dintre
valori si punctul
zero au
semnificatie
Numarul de pe
Tricourile
fotbalistilor
Clasificarea
universitatilor

Temperatura
Marimea rochilor
Numarul de
pacienti vazuti
Populatie versus esantion
Populatia este suma tuturor unitatilor statistice.


Esantionul este o parte a populatiei
Populatie
contine toate
elementele Esantion
contine o parte din
elemente alese aleatoriu